Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes

Descripción del Articulo

En el presente trabajo se propone desarrollar un modelo predictivo basado en modelos de ensamble que permita identificar y clasificar aquellos estudiantes universitarios con un alto grado de posibilidades de deserción estudiantil universitaria. Actualmente existe una estrecha relación entre la deser...

Descripción completa

Detalles Bibliográficos
Autor: Tapia Sucapuca, Jhampier
Formato: tesis de maestría
Fecha de Publicación:2021
Institución:Universidad Nacional de San Agustín
Repositorio:UNSA-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsa.edu.pe:20.500.12773/13409
Enlace del recurso:http://hdl.handle.net/20.500.12773/13409
Nivel de acceso:acceso abierto
Materia:Modelo de Aprendizaje Automatizado
Minería de Datos
Clasificador Bayesiano
Arboles de Decisión
Clasificador basado en Bosques Aleatorios
Datos desbalanceados
Técnicas de Remuestreo
Variables Ficticias
Validación Cruzada
Área bajo la curva ROC
Deserción Estudiantil
https://purl.org/pe-repo/ocde/ford#2.02.04
Descripción
Sumario:En el presente trabajo se propone desarrollar un modelo predictivo basado en modelos de ensamble que permita identificar y clasificar aquellos estudiantes universitarios con un alto grado de posibilidades de deserción estudiantil universitaria. Actualmente existe una estrecha relación entre la deserción y el rendimiento académico que puede conllevar a las universidades tomar acciones preventivas necesarias para mitigar esta problemática. Para el modelo se aplica minería de datos, concretamente en el campo de la inteligencia artificial en su rama de aprendizaje automatizado; también se aplica la metodología CRISP-DM y específicamente para el tratamiento de datos desbalanceados técnicas como: remuestreo, variables ficticias, entre otras. Para el proceso de clasificación se aplicaron algoritmos basados en métodos supervisados tales como: clasificadores bayesianos, árboles de decisión y otros de ensamble más complejos como: bosques aleatorios. Los datos utilizados pertenecen a estudiantes universitarios, los cuales están basados en los factores del rendimiento académico como: factores socio-familiares y factores académicos, ello según disponibilidad de información que presentaban las universidades del alcance. Como parte de validación del modelo, se realizó evaluaciones de los resultados de las clasificaciones obtenidas en la data de prueba versus las categorías reales de los estudiantes; utilizando técnicas como validación cruzada y a su vez considerando indicadores tales como: el área bajo la curva ROC, F1 Score, exactitud, sensibilidad, especificidad, precisión entre otros. Al utilizar el conjunto de datos disponible y al aplicar aprendizaje automatizado, fue posible predecir de manera favorable aquellos estudiantes con probabilidad de deserción, así como comprobar que el clasificador basado en bosques aleatorios obtuvo mejores resultados frente a los demás propuestos.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).