Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes

Descripción del Articulo

En el presente trabajo se propone desarrollar un modelo predictivo basado en modelos de ensamble que permita identificar y clasificar aquellos estudiantes universitarios con un alto grado de posibilidades de deserción estudiantil universitaria. Actualmente existe una estrecha relación entre la deser...

Descripción completa

Detalles Bibliográficos
Autor: Tapia Sucapuca, Jhampier
Formato: tesis de maestría
Fecha de Publicación:2021
Institución:Universidad Nacional de San Agustín
Repositorio:UNSA-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsa.edu.pe:20.500.12773/13409
Enlace del recurso:http://hdl.handle.net/20.500.12773/13409
Nivel de acceso:acceso abierto
Materia:Modelo de Aprendizaje Automatizado
Minería de Datos
Clasificador Bayesiano
Arboles de Decisión
Clasificador basado en Bosques Aleatorios
Datos desbalanceados
Técnicas de Remuestreo
Variables Ficticias
Validación Cruzada
Área bajo la curva ROC
Deserción Estudiantil
https://purl.org/pe-repo/ocde/ford#2.02.04
id UNSA_9ab7be1d0bb5b1a2adb57421653c7f79
oai_identifier_str oai:repositorio.unsa.edu.pe:20.500.12773/13409
network_acronym_str UNSA
network_name_str UNSA-Institucional
repository_id_str 4847
dc.title.es_PE.fl_str_mv Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes
title Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes
spellingShingle Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes
Tapia Sucapuca, Jhampier
Modelo de Aprendizaje Automatizado
Minería de Datos
Clasificador Bayesiano
Arboles de Decisión
Clasificador basado en Bosques Aleatorios
Datos desbalanceados
Técnicas de Remuestreo
Variables Ficticias
Validación Cruzada
Área bajo la curva ROC
Deserción Estudiantil
https://purl.org/pe-repo/ocde/ford#2.02.04
title_short Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes
title_full Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes
title_fullStr Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes
title_full_unstemmed Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes
title_sort Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes
author Tapia Sucapuca, Jhampier
author_facet Tapia Sucapuca, Jhampier
author_role author
dc.contributor.advisor.fl_str_mv Saire Peralta, Edwar Abril
dc.contributor.author.fl_str_mv Tapia Sucapuca, Jhampier
dc.subject.es_PE.fl_str_mv Modelo de Aprendizaje Automatizado
Minería de Datos
Clasificador Bayesiano
Arboles de Decisión
Clasificador basado en Bosques Aleatorios
Datos desbalanceados
Técnicas de Remuestreo
Variables Ficticias
Validación Cruzada
Área bajo la curva ROC
Deserción Estudiantil
topic Modelo de Aprendizaje Automatizado
Minería de Datos
Clasificador Bayesiano
Arboles de Decisión
Clasificador basado en Bosques Aleatorios
Datos desbalanceados
Técnicas de Remuestreo
Variables Ficticias
Validación Cruzada
Área bajo la curva ROC
Deserción Estudiantil
https://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.ocde.es_PE.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.02.04
description En el presente trabajo se propone desarrollar un modelo predictivo basado en modelos de ensamble que permita identificar y clasificar aquellos estudiantes universitarios con un alto grado de posibilidades de deserción estudiantil universitaria. Actualmente existe una estrecha relación entre la deserción y el rendimiento académico que puede conllevar a las universidades tomar acciones preventivas necesarias para mitigar esta problemática. Para el modelo se aplica minería de datos, concretamente en el campo de la inteligencia artificial en su rama de aprendizaje automatizado; también se aplica la metodología CRISP-DM y específicamente para el tratamiento de datos desbalanceados técnicas como: remuestreo, variables ficticias, entre otras. Para el proceso de clasificación se aplicaron algoritmos basados en métodos supervisados tales como: clasificadores bayesianos, árboles de decisión y otros de ensamble más complejos como: bosques aleatorios. Los datos utilizados pertenecen a estudiantes universitarios, los cuales están basados en los factores del rendimiento académico como: factores socio-familiares y factores académicos, ello según disponibilidad de información que presentaban las universidades del alcance. Como parte de validación del modelo, se realizó evaluaciones de los resultados de las clasificaciones obtenidas en la data de prueba versus las categorías reales de los estudiantes; utilizando técnicas como validación cruzada y a su vez considerando indicadores tales como: el área bajo la curva ROC, F1 Score, exactitud, sensibilidad, especificidad, precisión entre otros. Al utilizar el conjunto de datos disponible y al aplicar aprendizaje automatizado, fue posible predecir de manera favorable aquellos estudiantes con probabilidad de deserción, así como comprobar que el clasificador basado en bosques aleatorios obtuvo mejores resultados frente a los demás propuestos.
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-12-13T22:52:29Z
dc.date.available.none.fl_str_mv 2021-12-13T22:52:29Z
dc.date.issued.fl_str_mv 2021
dc.type.es_PE.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12773/13409
url http://hdl.handle.net/20.500.12773/13409
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_PE.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.es_PE.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.format.es_PE.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
dc.publisher.country.es_PE.fl_str_mv PE
dc.source.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
Repositorio Institucional - UNSA
dc.source.none.fl_str_mv reponame:UNSA-Institucional
instname:Universidad Nacional de San Agustín
instacron:UNSA
instname_str Universidad Nacional de San Agustín
instacron_str UNSA
institution UNSA
reponame_str UNSA-Institucional
collection UNSA-Institucional
bitstream.url.fl_str_mv https://repositorio.unsa.edu.pe/bitstreams/a0619e84-79cf-4ee6-9d64-24fd39395556/download
https://repositorio.unsa.edu.pe/bitstreams/860b5e09-32c6-48aa-ac54-f6a462e8c644/download
https://repositorio.unsa.edu.pe/bitstreams/d3424e1c-a55b-4efd-ae43-9b4735ffc34c/download
bitstream.checksum.fl_str_mv b5ffe04942a5a986694cb750a8afd71e
c52066b9c50a8f86be96c82978636682
15356c41ee38a605d9a58c8d8974443a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional UNSA
repository.mail.fl_str_mv repositorio@unsa.edu.pe
_version_ 1828763174919208960
spelling Saire Peralta, Edwar AbrilTapia Sucapuca, Jhampier2021-12-13T22:52:29Z2021-12-13T22:52:29Z2021En el presente trabajo se propone desarrollar un modelo predictivo basado en modelos de ensamble que permita identificar y clasificar aquellos estudiantes universitarios con un alto grado de posibilidades de deserción estudiantil universitaria. Actualmente existe una estrecha relación entre la deserción y el rendimiento académico que puede conllevar a las universidades tomar acciones preventivas necesarias para mitigar esta problemática. Para el modelo se aplica minería de datos, concretamente en el campo de la inteligencia artificial en su rama de aprendizaje automatizado; también se aplica la metodología CRISP-DM y específicamente para el tratamiento de datos desbalanceados técnicas como: remuestreo, variables ficticias, entre otras. Para el proceso de clasificación se aplicaron algoritmos basados en métodos supervisados tales como: clasificadores bayesianos, árboles de decisión y otros de ensamble más complejos como: bosques aleatorios. Los datos utilizados pertenecen a estudiantes universitarios, los cuales están basados en los factores del rendimiento académico como: factores socio-familiares y factores académicos, ello según disponibilidad de información que presentaban las universidades del alcance. Como parte de validación del modelo, se realizó evaluaciones de los resultados de las clasificaciones obtenidas en la data de prueba versus las categorías reales de los estudiantes; utilizando técnicas como validación cruzada y a su vez considerando indicadores tales como: el área bajo la curva ROC, F1 Score, exactitud, sensibilidad, especificidad, precisión entre otros. Al utilizar el conjunto de datos disponible y al aplicar aprendizaje automatizado, fue posible predecir de manera favorable aquellos estudiantes con probabilidad de deserción, así como comprobar que el clasificador basado en bosques aleatorios obtuvo mejores resultados frente a los demás propuestos.application/pdfhttp://hdl.handle.net/20.500.12773/13409spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSAModelo de Aprendizaje AutomatizadoMinería de DatosClasificador BayesianoArboles de DecisiónClasificador basado en Bosques AleatoriosDatos desbalanceadosTécnicas de RemuestreoVariables FicticiasValidación CruzadaÁrea bajo la curva ROCDeserción Estudiantilhttps://purl.org/pe-repo/ocde/ford#2.02.04Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantesinfo:eu-repo/semantics/masterThesisSUNEDU40118809https://orcid.org/0000-0002-9526-020545135673612337Puente de la Vega, Karim GuevaraHinojosa Cárdenas, EdwardSaire Peralta, Edwar Abrilhttp://purl.org/pe-repo/renati/level#maestrohttp://purl.org/pe-repo/renati/type#tesisMaestría en Ciencias: Ingeniería de Sistemas, con mención en Gerencia en Tecnologías de la InformaciónUniversidad Nacional de San Agustín de Arequipa.Unidad de Posgrado.Facultad de Ingeniería de Producción y ServiciosMaestro en Ciencias: Ingeniería de Sistemas, con mención en Gerencia en Tecnologías de la InformaciónORIGINALUPtasuj.pdfUPtasuj.pdfapplication/pdf9622628https://repositorio.unsa.edu.pe/bitstreams/a0619e84-79cf-4ee6-9d64-24fd39395556/downloadb5ffe04942a5a986694cb750a8afd71eMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81327https://repositorio.unsa.edu.pe/bitstreams/860b5e09-32c6-48aa-ac54-f6a462e8c644/downloadc52066b9c50a8f86be96c82978636682MD52TEXTUPtasuj.pdf.txtUPtasuj.pdf.txtExtracted texttext/plain206747https://repositorio.unsa.edu.pe/bitstreams/d3424e1c-a55b-4efd-ae43-9b4735ffc34c/download15356c41ee38a605d9a58c8d8974443aMD5320.500.12773/13409oai:repositorio.unsa.edu.pe:20.500.12773/134092021-12-14 03:02:30.682http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe77u/TGljZW5jaWEgZGUgVXNvCiAKRWwgUmVwb3NpdG9yaW8gSW5zdGl0dWNpb25hbCwgZGlmdW5kZSBtZWRpYW50ZSBsb3MgdHJhYmFqb3MgZGUgaW52ZXN0aWdhY2nDs24gcHJvZHVjaWRvcyBwb3IgbG9zIG1pZW1icm9zIGRlIGxhIHVuaXZlcnNpZGFkLiBFbCBjb250ZW5pZG8gZGUgbG9zIGRvY3VtZW50b3MgZGlnaXRhbGVzIGVzIGRlIGFjY2VzbyBhYmllcnRvIHBhcmEgdG9kYSBwZXJzb25hIGludGVyZXNhZGEuCgpTZSBhY2VwdGEgbGEgZGlmdXNpw7NuIHDDumJsaWNhIGRlIGxhIG9icmEsIHN1IGNvcGlhIHkgZGlzdHJpYnVjacOzbi4gUGFyYSBlc3RvIGVzIG5lY2VzYXJpbyBxdWUgc2UgY3VtcGxhIGNvbiBsYXMgc2lndWllbnRlcyBjb25kaWNpb25lczoKCkVsIG5lY2VzYXJpbyByZWNvbm9jaW1pZW50byBkZSBsYSBhdXRvcsOtYSBkZSBsYSBvYnJhLCBpZGVudGlmaWNhbmRvIG9wb3J0dW5hIHkgY29ycmVjdGFtZW50ZSBhIGxhIHBlcnNvbmEgcXVlIHBvc2VhIGxvcyBkZXJlY2hvcyBkZSBhdXRvci4KCk5vIGVzdMOhIHBlcm1pdGlkbyBlbCB1c28gaW5kZWJpZG8gZGVsIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gY29uIGZpbmVzIGRlIGx1Y3JvIG8gY3VhbHF1aWVyIHRpcG8gZGUgYWN0aXZpZGFkIHF1ZSBwcm9kdXpjYSBnYW5hbmNpYXMgYSBsYXMgcGVyc29uYXMgcXVlIGxvIGRpZnVuZGVuIHNpbiBlbCBjb25zZW50aW1pZW50byBkZWwgYXV0b3IgKGF1dG9yIGxlZ2FsKS4KCkxvcyBkZXJlY2hvcyBtb3JhbGVzIGRlbCBhdXRvciBubyBzb24gYWZlY3RhZG9zIHBvciBsYSBwcmVzZW50ZSBsaWNlbmNpYSBkZSB1c28uCgpEZXJlY2hvcyBkZSBhdXRvcgoKTGEgdW5pdmVyc2lkYWQgbm8gcG9zZWUgbG9zIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbC4gTG9zIGRlcmVjaG9zIGRlIGF1dG9yIHNlIGVuY3VlbnRyYW4gcHJvdGVnaWRvcyBwb3IgbGEgbGVnaXNsYWNpw7NuIHBlcnVhbmE6IExleSBzb2JyZSBlbCBEZXJlY2hvIGRlIEF1dG9yIHByb211bGdhZG8gZW4gMTk5NiAoRC5MLiBOwrA4MjIpLCBMZXkgcXVlIG1vZGlmaWNhIGxvcyBhcnTDrWN1bG9zIDE4OMKwIHkgMTg5wrAgZGVsIGRlY3JldG8gbGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZGVyZWNob3MgZGUgYXV0b3IgcHJvbXVsZ2FkbyBlbiAyMDA1IChMZXkgTsKwMjg1MTcpLCBEZWNyZXRvIExlZ2lzbGF0aXZvIHF1ZSBhcHJ1ZWJhIGxhIG1vZGlmaWNhY2nDs24gZGVsIERlY3JldG8gTGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZWwgRGVyZWNobyBkZSBBdXRvciBwcm9tdWxnYWRvIGVuIDIwMDggKEQuTC4gTsKwMTA3NikuCg==
score 13.949927
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).