Análisis comparativo para la recuperación de información de resultados en documentos NGS utilizando LLM open source

Descripción del Articulo

El cáncer es una de las principales causas de mortalidad a nivel mundial, con aproximadamente 10 millones de muertes anuales. Se proyecta un aumento significativo en los casos para 2030, especialmente en países como Perú. El Next Generation Sequencing (NGS) se ha consolidado como una herramienta ese...

Descripción completa

Detalles Bibliográficos
Autor: Villavicencio Antunez, Jorge Enrique
Formato: tesis de maestría
Fecha de Publicación:2025
Institución:Universidad de Ingeniería y tecnología
Repositorio:UTEC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.utec.edu.pe:20.500.12815/423
Enlace del recurso:https://hdl.handle.net/20.500.12815/423
Nivel de acceso:acceso abierto
Materia:Recuperación de información
Modelos lingüísticos
Next Generation Sequencing
Software de código abierto
Information retrieval
Language models
Open source software
https://purl.org/pe-repo/ocde/ford#1.02.02
Descripción
Sumario:El cáncer es una de las principales causas de mortalidad a nivel mundial, con aproximadamente 10 millones de muertes anuales. Se proyecta un aumento significativo en los casos para 2030, especialmente en países como Perú. El Next Generation Sequencing (NGS) se ha consolidado como una herramienta esencial para el diagnóstico del cáncer, generando una gran cantidad de datos genómicos que presentan desafíos significativos en su procesamiento y análisis, particularmente en documentos no estructurados. Este proyecto se centra en el análisis comparativo de 5 LLMs de código abierto (Qwen, Mistral, LLaMA-2, Gemma-2, Deepseek) para la recuperación de información de resultados en documentos NGS. Estos modelos fueron seleccionados debido a sus características similares, como el tamaño de sus parámetros, que es aproximadamente 7 mil millones (7B). A través de la evaluación de métricas clave como precisión, recall, F1 score, BLEU score y cosine similarity, se busca determinar el desempeño de diferentes LLMs en tareas de extracción de datos genómicos y biomarcadores. La importancia de este trabajo radica en identificar que modelos de lenguaje son más adecuados para abordar las complejidades del lenguaje técnico y los formatos heterogéneos presentes en los documentos NGS. Los resultados obtenidos contribuirán a optimizar el manejo de datos clínicos complejos, mejorando la calidad del procesamiento y reduciendo errores en el flujo de trabajo de oncología, lo que a su vez impactara´ positivamente en la precisión y eficiencia del diagnóstico del cáncer.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).