Predicción de cáncer en expresiones genéticas de microarrays mediante un ensamble de modelos heterogéneos de machine learning

Descripción del Articulo

El cáncer de seno, es una de las enfermedades, que aproximadamente genera 2.26 millones de muertes a nivel mundial anualmente, según la Organización Mundial de la Salud. El diagnóstico de la enfermedad, en etapas iniciales es importante, para permitir un tratamiento que elimine y/o alivie las consec...

Descripción completa

Detalles Bibliográficos
Autor: Palma Ttito, Luis Beltran
Formato: tesis doctoral
Fecha de Publicación:2023
Institución:Universidad Nacional Del Altiplano
Repositorio:UNAP-Institucional
Lenguaje:español
OAI Identifier:oai:https://repositorio.unap.edu.pe:20.500.14082/21675
Enlace del recurso:https://repositorio.unap.edu.pe/handle/20.500.14082/21675
Nivel de acceso:acceso abierto
Materia:Aprendizaje automático
Cáncer de seno
Ensambles
Expresión génica
Microarray
Welch ANOVA
https://purl.org/pe-repo/ocde/ford#1.02.03
Descripción
Sumario:El cáncer de seno, es una de las enfermedades, que aproximadamente genera 2.26 millones de muertes a nivel mundial anualmente, según la Organización Mundial de la Salud. El diagnóstico de la enfermedad, en etapas iniciales es importante, para permitir un tratamiento que elimine y/o alivie las consecuencias del mismo. Proveer de diversas técnicas para la detección del cáncer de seno, dará mayores opciones a los pacientes para el diagnóstico, y permitirá la disminución de costos. Por ello, es necesario conocer, ¿qué ensambles heterogéneos de aprendizaje automático, tiene mejor predicción de cáncer de seno, a partir de datos de expresiones géneticas de microarray?. En la presente investigación, se diseñó e implemento, cuatro ensambles de algoritmos heterogéneos: voting, bagging, boosting y stacking, los cuales fueron entrenados con un dataset de 4113 muestras miARN, cada uno con 2542 atributos, luego se aplicó los test Welch ANOVA y test de Games Showel, con diez resultados de exactitud, obtenidos por validación cruzada, y se detectó, que los ensambles no presentan diferencias significativas, logrando alcanzar una exactitud de predicción promedio de 98.23%. También se aplicó la misma metodología a, 121 muestras ADN extraídas por biopsia de células de mama, que constan de 54676 atributos, obteniendo una exactitud de predicción promedio de 99.99%.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).