Desarrollo de un modelo de inteligencia artificial para la detección y predicción de mutaciones en el genoma de SARS-CoV-2 con potencial de fijación

Descripción del Articulo

Desde el inicio de la pandemia por COVID-19, la vigilancia genómica del SARS- CoV-2 se consolidó como herramienta clave para entender su evolución y gestionar su impacto. El acceso masivo y en tiempo real a genomas virales permitió relacionar mutaciones con olas de contagio, pero también evidencio l...

Descripción completa

Detalles Bibliográficos
Autor: Ascue Orosco, Francisco
Formato: tesis de grado
Fecha de Publicación:2025
Institución:Universidad de Ingeniería y tecnología
Repositorio:UTEC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.utec.edu.pe:20.500.12815/509
Enlace del recurso:https://hdl.handle.net/20.500.12815/509
Nivel de acceso:acceso abierto
Materia:Inteligencia artificial
Vigilancia en salud pública
SARS-CoV-2
Mutación viral
Artificial intelligence
Public health surveillance
Viral mutation
https://purl.org/pe-repo/ocde/ford#1.02.02
Descripción
Sumario:Desde el inicio de la pandemia por COVID-19, la vigilancia genómica del SARS- CoV-2 se consolidó como herramienta clave para entender su evolución y gestionar su impacto. El acceso masivo y en tiempo real a genomas virales permitió relacionar mutaciones con olas de contagio, pero también evidencio la necesidad de métodos más eficientes y menos dependientes de infraestructura costosa. En este contexto, el presente estudio evalúa representaciones de secuencias mediante Frequency Chaos Game Representation (FCGR) combinadas con algoritmos de aprendizaje profundo. Se encontró que usar k = 6 en FCGR ofrece una resolución suficiente para diferenciar linajes con un costo computacional manejable, mientras que valores mayores de k incrementan la resolución a expensas de recursos. Asimismo, se exploran alternativas como la tokenización basada en Byte Pair Encoding (BPE) para mitigar limitaciones de memoria. En la reconstrucción de matrices genómicas, se compararon arquitecturas de autoencoders básicos y modelos tipo UNet. Aunque UNet preserva mejor los detalles genómicos, el autoencoder mostro ser más adecuado en entornos con recursos limitados. La integración de representaciones latentes en un World Model basado en Transformers permitió modelar dinámicas mutacionales y resaltar la relevancia de la atención múltiple y la codificación posicional. No obstante, la cobertura geográfica limitada y la presencia de datos faltantes restringen la generalización, como se observó en los análisis de las variantes Lambda y Gamma. En conjunto, estos enfoques proponen un marco escalable y prometedor para la vigilancia genómica del SARS-CoV-2 y futuros patógenos emergentes.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).