Aplicación del algoritmo "Random Forest" para un modelo de clasificación sobre la tenencia de anemia de niños del Perú

Descripción del Articulo

En este trabajo de investigación se ha elaborado y aplicado el algoritmo “random forest” para un modelo de clasificación, con la finalidad de predecir la tenencia de anemia en niños de 6 a 35 meses de edad nacidos en todo el Perú, utilizando la base de datos recolectada a través de la Encuesta Demog...

Descripción completa

Detalles Bibliográficos
Autor: Céspedes Panduro, Bernardo
Formato: tesis doctoral
Fecha de Publicación:2022
Institución:Universidad Nacional del Santa
Repositorio:UNS - Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.uns.edu.pe:20.500.14278/4007
Enlace del recurso:https://hdl.handle.net/20.500.14278/4007
Nivel de acceso:acceso abierto
Materia:Tenencia de anemia
Random forest
Balanceo de datos
Indicador área bajo la curva
Sensibilidad
Modelo de clasificación
Descripción
Sumario:En este trabajo de investigación se ha elaborado y aplicado el algoritmo “random forest” para un modelo de clasificación, con la finalidad de predecir la tenencia de anemia en niños de 6 a 35 meses de edad nacidos en todo el Perú, utilizando la base de datos recolectada a través de la Encuesta Demográfica y de Salud Familiar (ENDES) por el Instituto Nacional de Estadística e Informática (INEI), durante los años 2015 al 2019, conformada por 57410 registros de encuestados. Se seleccionaron 33 variables independientes de todas las que recoge la ENDES. Se plantearon seis procedimientos alternativos utilizando una combinación de los criterios de balanceo de datos y reajuste de parámetros para la predicción de anemia, obteniéndose valores de los indicadores, Área Bajo la Curva (AUC), nivel de especificidad y nivel de sensibilidad para cada uno de ellos. De los seis procedimientos, el que mejor predijo la tenencia de anemia con valores para los indicadores de especificidad (63,6%) y sensibilidad (65,9%) más similares fue el que utiliza datos balanceados con un reajuste de los parámetros, reduciendo la cantidad de arboles y con selección de variables. Las 5 variables independientes más importantes para este modelo en la tenencia de anemia son: variables relacionadas con el niño (edad del niño, en meses), variables sociodemográficas (altitud del conglomerado, en metros), variables del cuidado materno e infantil (número de visitas prenatales por embarazo, meses de embarazo del primer control prenatal y talla de la madre en centímetros).
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).