Análisis comparativo para la recuperación de información de resultados en documentos NGS utilizando LLM open source
Descripción del Articulo
El cáncer es una de las principales causas de mortalidad a nivel mundial, con aproximadamente 10 millones de muertes anuales. Se proyecta un aumento significativo en los casos para 2030, especialmente en países como Perú. El Next Generation Sequencing (NGS) se ha consolidado como una herramienta ese...
Autor: | |
---|---|
Formato: | tesis de maestría |
Fecha de Publicación: | 2025 |
Institución: | Universidad de Ingeniería y tecnología |
Repositorio: | UTEC-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.utec.edu.pe:20.500.12815/423 |
Enlace del recurso: | https://hdl.handle.net/20.500.12815/423 |
Nivel de acceso: | acceso abierto |
Materia: | Recuperación de información Modelos lingüísticos Next Generation Sequencing Software de código abierto Information retrieval Language models Open source software https://purl.org/pe-repo/ocde/ford#1.02.02 |
Sumario: | El cáncer es una de las principales causas de mortalidad a nivel mundial, con aproximadamente 10 millones de muertes anuales. Se proyecta un aumento significativo en los casos para 2030, especialmente en países como Perú. El Next Generation Sequencing (NGS) se ha consolidado como una herramienta esencial para el diagnóstico del cáncer, generando una gran cantidad de datos genómicos que presentan desafíos significativos en su procesamiento y análisis, particularmente en documentos no estructurados. Este proyecto se centra en el análisis comparativo de 5 LLMs de código abierto (Qwen, Mistral, LLaMA-2, Gemma-2, Deepseek) para la recuperación de información de resultados en documentos NGS. Estos modelos fueron seleccionados debido a sus características similares, como el tamaño de sus parámetros, que es aproximadamente 7 mil millones (7B). A través de la evaluación de métricas clave como precisión, recall, F1 score, BLEU score y cosine similarity, se busca determinar el desempeño de diferentes LLMs en tareas de extracción de datos genómicos y biomarcadores. La importancia de este trabajo radica en identificar que modelos de lenguaje son más adecuados para abordar las complejidades del lenguaje técnico y los formatos heterogéneos presentes en los documentos NGS. Los resultados obtenidos contribuirán a optimizar el manejo de datos clínicos complejos, mejorando la calidad del procesamiento y reduciendo errores en el flujo de trabajo de oncología, lo que a su vez impactara´ positivamente en la precisión y eficiencia del diagnóstico del cáncer. |
---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).