Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes
Descripción del Articulo
En el presente trabajo se propone desarrollar un modelo predictivo basado en modelos de ensamble que permita identificar y clasificar aquellos estudiantes universitarios con un alto grado de posibilidades de deserción estudiantil universitaria. Actualmente existe una estrecha relación entre la deser...
Autor: | |
---|---|
Formato: | tesis de maestría |
Fecha de Publicación: | 2021 |
Institución: | Universidad Nacional de San Agustín |
Repositorio: | UNSA-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.unsa.edu.pe:20.500.12773/13409 |
Enlace del recurso: | http://hdl.handle.net/20.500.12773/13409 |
Nivel de acceso: | acceso abierto |
Materia: | Modelo de Aprendizaje Automatizado Minería de Datos Clasificador Bayesiano Arboles de Decisión Clasificador basado en Bosques Aleatorios Datos desbalanceados Técnicas de Remuestreo Variables Ficticias Validación Cruzada Área bajo la curva ROC Deserción Estudiantil https://purl.org/pe-repo/ocde/ford#2.02.04 |
id |
UNSA_9ab7be1d0bb5b1a2adb57421653c7f79 |
---|---|
oai_identifier_str |
oai:repositorio.unsa.edu.pe:20.500.12773/13409 |
network_acronym_str |
UNSA |
network_name_str |
UNSA-Institucional |
repository_id_str |
4847 |
dc.title.es_PE.fl_str_mv |
Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes |
title |
Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes |
spellingShingle |
Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes Tapia Sucapuca, Jhampier Modelo de Aprendizaje Automatizado Minería de Datos Clasificador Bayesiano Arboles de Decisión Clasificador basado en Bosques Aleatorios Datos desbalanceados Técnicas de Remuestreo Variables Ficticias Validación Cruzada Área bajo la curva ROC Deserción Estudiantil https://purl.org/pe-repo/ocde/ford#2.02.04 |
title_short |
Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes |
title_full |
Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes |
title_fullStr |
Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes |
title_full_unstemmed |
Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes |
title_sort |
Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantes |
author |
Tapia Sucapuca, Jhampier |
author_facet |
Tapia Sucapuca, Jhampier |
author_role |
author |
dc.contributor.advisor.fl_str_mv |
Saire Peralta, Edwar Abril |
dc.contributor.author.fl_str_mv |
Tapia Sucapuca, Jhampier |
dc.subject.es_PE.fl_str_mv |
Modelo de Aprendizaje Automatizado Minería de Datos Clasificador Bayesiano Arboles de Decisión Clasificador basado en Bosques Aleatorios Datos desbalanceados Técnicas de Remuestreo Variables Ficticias Validación Cruzada Área bajo la curva ROC Deserción Estudiantil |
topic |
Modelo de Aprendizaje Automatizado Minería de Datos Clasificador Bayesiano Arboles de Decisión Clasificador basado en Bosques Aleatorios Datos desbalanceados Técnicas de Remuestreo Variables Ficticias Validación Cruzada Área bajo la curva ROC Deserción Estudiantil https://purl.org/pe-repo/ocde/ford#2.02.04 |
dc.subject.ocde.es_PE.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#2.02.04 |
description |
En el presente trabajo se propone desarrollar un modelo predictivo basado en modelos de ensamble que permita identificar y clasificar aquellos estudiantes universitarios con un alto grado de posibilidades de deserción estudiantil universitaria. Actualmente existe una estrecha relación entre la deserción y el rendimiento académico que puede conllevar a las universidades tomar acciones preventivas necesarias para mitigar esta problemática. Para el modelo se aplica minería de datos, concretamente en el campo de la inteligencia artificial en su rama de aprendizaje automatizado; también se aplica la metodología CRISP-DM y específicamente para el tratamiento de datos desbalanceados técnicas como: remuestreo, variables ficticias, entre otras. Para el proceso de clasificación se aplicaron algoritmos basados en métodos supervisados tales como: clasificadores bayesianos, árboles de decisión y otros de ensamble más complejos como: bosques aleatorios. Los datos utilizados pertenecen a estudiantes universitarios, los cuales están basados en los factores del rendimiento académico como: factores socio-familiares y factores académicos, ello según disponibilidad de información que presentaban las universidades del alcance. Como parte de validación del modelo, se realizó evaluaciones de los resultados de las clasificaciones obtenidas en la data de prueba versus las categorías reales de los estudiantes; utilizando técnicas como validación cruzada y a su vez considerando indicadores tales como: el área bajo la curva ROC, F1 Score, exactitud, sensibilidad, especificidad, precisión entre otros. Al utilizar el conjunto de datos disponible y al aplicar aprendizaje automatizado, fue posible predecir de manera favorable aquellos estudiantes con probabilidad de deserción, así como comprobar que el clasificador basado en bosques aleatorios obtuvo mejores resultados frente a los demás propuestos. |
publishDate |
2021 |
dc.date.accessioned.none.fl_str_mv |
2021-12-13T22:52:29Z |
dc.date.available.none.fl_str_mv |
2021-12-13T22:52:29Z |
dc.date.issued.fl_str_mv |
2021 |
dc.type.es_PE.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12773/13409 |
url |
http://hdl.handle.net/20.500.12773/13409 |
dc.language.iso.es_PE.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.es_PE.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.format.es_PE.fl_str_mv |
application/pdf |
dc.publisher.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa |
dc.publisher.country.es_PE.fl_str_mv |
PE |
dc.source.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa Repositorio Institucional - UNSA |
dc.source.none.fl_str_mv |
reponame:UNSA-Institucional instname:Universidad Nacional de San Agustín instacron:UNSA |
instname_str |
Universidad Nacional de San Agustín |
instacron_str |
UNSA |
institution |
UNSA |
reponame_str |
UNSA-Institucional |
collection |
UNSA-Institucional |
bitstream.url.fl_str_mv |
https://repositorio.unsa.edu.pe/bitstreams/a0619e84-79cf-4ee6-9d64-24fd39395556/download https://repositorio.unsa.edu.pe/bitstreams/860b5e09-32c6-48aa-ac54-f6a462e8c644/download https://repositorio.unsa.edu.pe/bitstreams/d3424e1c-a55b-4efd-ae43-9b4735ffc34c/download |
bitstream.checksum.fl_str_mv |
b5ffe04942a5a986694cb750a8afd71e c52066b9c50a8f86be96c82978636682 15356c41ee38a605d9a58c8d8974443a |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional UNSA |
repository.mail.fl_str_mv |
repositorio@unsa.edu.pe |
_version_ |
1828763174919208960 |
spelling |
Saire Peralta, Edwar AbrilTapia Sucapuca, Jhampier2021-12-13T22:52:29Z2021-12-13T22:52:29Z2021En el presente trabajo se propone desarrollar un modelo predictivo basado en modelos de ensamble que permita identificar y clasificar aquellos estudiantes universitarios con un alto grado de posibilidades de deserción estudiantil universitaria. Actualmente existe una estrecha relación entre la deserción y el rendimiento académico que puede conllevar a las universidades tomar acciones preventivas necesarias para mitigar esta problemática. Para el modelo se aplica minería de datos, concretamente en el campo de la inteligencia artificial en su rama de aprendizaje automatizado; también se aplica la metodología CRISP-DM y específicamente para el tratamiento de datos desbalanceados técnicas como: remuestreo, variables ficticias, entre otras. Para el proceso de clasificación se aplicaron algoritmos basados en métodos supervisados tales como: clasificadores bayesianos, árboles de decisión y otros de ensamble más complejos como: bosques aleatorios. Los datos utilizados pertenecen a estudiantes universitarios, los cuales están basados en los factores del rendimiento académico como: factores socio-familiares y factores académicos, ello según disponibilidad de información que presentaban las universidades del alcance. Como parte de validación del modelo, se realizó evaluaciones de los resultados de las clasificaciones obtenidas en la data de prueba versus las categorías reales de los estudiantes; utilizando técnicas como validación cruzada y a su vez considerando indicadores tales como: el área bajo la curva ROC, F1 Score, exactitud, sensibilidad, especificidad, precisión entre otros. Al utilizar el conjunto de datos disponible y al aplicar aprendizaje automatizado, fue posible predecir de manera favorable aquellos estudiantes con probabilidad de deserción, así como comprobar que el clasificador basado en bosques aleatorios obtuvo mejores resultados frente a los demás propuestos.application/pdfhttp://hdl.handle.net/20.500.12773/13409spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSAModelo de Aprendizaje AutomatizadoMinería de DatosClasificador BayesianoArboles de DecisiónClasificador basado en Bosques AleatoriosDatos desbalanceadosTécnicas de RemuestreoVariables FicticiasValidación CruzadaÁrea bajo la curva ROCDeserción Estudiantilhttps://purl.org/pe-repo/ocde/ford#2.02.04Modelo predictivo de clasificación basado en aprendizaje automatizado para la detección temprana de posibles estudiantes universitarios desertantesinfo:eu-repo/semantics/masterThesisSUNEDU40118809https://orcid.org/0000-0002-9526-020545135673612337Puente de la Vega, Karim GuevaraHinojosa Cárdenas, EdwardSaire Peralta, Edwar Abrilhttp://purl.org/pe-repo/renati/level#maestrohttp://purl.org/pe-repo/renati/type#tesisMaestría en Ciencias: Ingeniería de Sistemas, con mención en Gerencia en Tecnologías de la InformaciónUniversidad Nacional de San Agustín de Arequipa.Unidad de Posgrado.Facultad de Ingeniería de Producción y ServiciosMaestro en Ciencias: Ingeniería de Sistemas, con mención en Gerencia en Tecnologías de la InformaciónORIGINALUPtasuj.pdfUPtasuj.pdfapplication/pdf9622628https://repositorio.unsa.edu.pe/bitstreams/a0619e84-79cf-4ee6-9d64-24fd39395556/downloadb5ffe04942a5a986694cb750a8afd71eMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81327https://repositorio.unsa.edu.pe/bitstreams/860b5e09-32c6-48aa-ac54-f6a462e8c644/downloadc52066b9c50a8f86be96c82978636682MD52TEXTUPtasuj.pdf.txtUPtasuj.pdf.txtExtracted texttext/plain206747https://repositorio.unsa.edu.pe/bitstreams/d3424e1c-a55b-4efd-ae43-9b4735ffc34c/download15356c41ee38a605d9a58c8d8974443aMD5320.500.12773/13409oai:repositorio.unsa.edu.pe:20.500.12773/134092021-12-14 03:02:30.682http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe77u/TGljZW5jaWEgZGUgVXNvCiAKRWwgUmVwb3NpdG9yaW8gSW5zdGl0dWNpb25hbCwgZGlmdW5kZSBtZWRpYW50ZSBsb3MgdHJhYmFqb3MgZGUgaW52ZXN0aWdhY2nDs24gcHJvZHVjaWRvcyBwb3IgbG9zIG1pZW1icm9zIGRlIGxhIHVuaXZlcnNpZGFkLiBFbCBjb250ZW5pZG8gZGUgbG9zIGRvY3VtZW50b3MgZGlnaXRhbGVzIGVzIGRlIGFjY2VzbyBhYmllcnRvIHBhcmEgdG9kYSBwZXJzb25hIGludGVyZXNhZGEuCgpTZSBhY2VwdGEgbGEgZGlmdXNpw7NuIHDDumJsaWNhIGRlIGxhIG9icmEsIHN1IGNvcGlhIHkgZGlzdHJpYnVjacOzbi4gUGFyYSBlc3RvIGVzIG5lY2VzYXJpbyBxdWUgc2UgY3VtcGxhIGNvbiBsYXMgc2lndWllbnRlcyBjb25kaWNpb25lczoKCkVsIG5lY2VzYXJpbyByZWNvbm9jaW1pZW50byBkZSBsYSBhdXRvcsOtYSBkZSBsYSBvYnJhLCBpZGVudGlmaWNhbmRvIG9wb3J0dW5hIHkgY29ycmVjdGFtZW50ZSBhIGxhIHBlcnNvbmEgcXVlIHBvc2VhIGxvcyBkZXJlY2hvcyBkZSBhdXRvci4KCk5vIGVzdMOhIHBlcm1pdGlkbyBlbCB1c28gaW5kZWJpZG8gZGVsIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gY29uIGZpbmVzIGRlIGx1Y3JvIG8gY3VhbHF1aWVyIHRpcG8gZGUgYWN0aXZpZGFkIHF1ZSBwcm9kdXpjYSBnYW5hbmNpYXMgYSBsYXMgcGVyc29uYXMgcXVlIGxvIGRpZnVuZGVuIHNpbiBlbCBjb25zZW50aW1pZW50byBkZWwgYXV0b3IgKGF1dG9yIGxlZ2FsKS4KCkxvcyBkZXJlY2hvcyBtb3JhbGVzIGRlbCBhdXRvciBubyBzb24gYWZlY3RhZG9zIHBvciBsYSBwcmVzZW50ZSBsaWNlbmNpYSBkZSB1c28uCgpEZXJlY2hvcyBkZSBhdXRvcgoKTGEgdW5pdmVyc2lkYWQgbm8gcG9zZWUgbG9zIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbC4gTG9zIGRlcmVjaG9zIGRlIGF1dG9yIHNlIGVuY3VlbnRyYW4gcHJvdGVnaWRvcyBwb3IgbGEgbGVnaXNsYWNpw7NuIHBlcnVhbmE6IExleSBzb2JyZSBlbCBEZXJlY2hvIGRlIEF1dG9yIHByb211bGdhZG8gZW4gMTk5NiAoRC5MLiBOwrA4MjIpLCBMZXkgcXVlIG1vZGlmaWNhIGxvcyBhcnTDrWN1bG9zIDE4OMKwIHkgMTg5wrAgZGVsIGRlY3JldG8gbGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZGVyZWNob3MgZGUgYXV0b3IgcHJvbXVsZ2FkbyBlbiAyMDA1IChMZXkgTsKwMjg1MTcpLCBEZWNyZXRvIExlZ2lzbGF0aXZvIHF1ZSBhcHJ1ZWJhIGxhIG1vZGlmaWNhY2nDs24gZGVsIERlY3JldG8gTGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZWwgRGVyZWNobyBkZSBBdXRvciBwcm9tdWxnYWRvIGVuIDIwMDggKEQuTC4gTsKwMTA3NikuCg== |
score |
13.949927 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).