Modelo de regresión logística aplicado con técnicas de balanceo de datos para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la Universidad Nacional de Piura

Descripción del Articulo

En la actualidad los clasificadores predictivos están siendo muy utilizados, por lo cual existen varios métodos que nos ofrecen resultados buenos para solucionar esta tarea, sin embargo, es probable encontrarse con conjuntos de datos desbalanceados, (que una categoría de la variable a predecir, este...

Descripción completa

Detalles Bibliográficos
Autor: Panta Ipanaqué, Juan Camilo
Formato: tesis de grado
Fecha de Publicación:2021
Institución:Universidad Nacional de Piura
Repositorio:UNP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unp.edu.pe:20.500.12676/2689
Enlace del recurso:https://repositorio.unp.edu.pe/handle/20.500.12676/2689
Nivel de acceso:acceso abierto
Materia:AUC
Regresión logística
SMOTE
Datos desbalanceados
http://purl.org/pe-repo/ocde/ford#1.01.03
id RUMP_76fbfabfd9e31042def6d527a7603d4a
oai_identifier_str oai:repositorio.unp.edu.pe:20.500.12676/2689
network_acronym_str RUMP
network_name_str UNP-Institucional
repository_id_str 4814
dc.title.es_PE.fl_str_mv Modelo de regresión logística aplicado con técnicas de balanceo de datos para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la Universidad Nacional de Piura
title Modelo de regresión logística aplicado con técnicas de balanceo de datos para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la Universidad Nacional de Piura
spellingShingle Modelo de regresión logística aplicado con técnicas de balanceo de datos para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la Universidad Nacional de Piura
Panta Ipanaqué, Juan Camilo
AUC
Regresión logística
SMOTE
Datos desbalanceados
http://purl.org/pe-repo/ocde/ford#1.01.03
title_short Modelo de regresión logística aplicado con técnicas de balanceo de datos para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la Universidad Nacional de Piura
title_full Modelo de regresión logística aplicado con técnicas de balanceo de datos para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la Universidad Nacional de Piura
title_fullStr Modelo de regresión logística aplicado con técnicas de balanceo de datos para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la Universidad Nacional de Piura
title_full_unstemmed Modelo de regresión logística aplicado con técnicas de balanceo de datos para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la Universidad Nacional de Piura
title_sort Modelo de regresión logística aplicado con técnicas de balanceo de datos para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la Universidad Nacional de Piura
author Panta Ipanaqué, Juan Camilo
author_facet Panta Ipanaqué, Juan Camilo
author_role author
dc.contributor.advisor.fl_str_mv Correa Becerra, Ramón Cosme
dc.contributor.author.fl_str_mv Panta Ipanaqué, Juan Camilo
dc.subject.es_PE.fl_str_mv AUC
Regresión logística
SMOTE
Datos desbalanceados
topic AUC
Regresión logística
SMOTE
Datos desbalanceados
http://purl.org/pe-repo/ocde/ford#1.01.03
dc.subject.ocde.es_PE.fl_str_mv http://purl.org/pe-repo/ocde/ford#1.01.03
description En la actualidad los clasificadores predictivos están siendo muy utilizados, por lo cual existen varios métodos que nos ofrecen resultados buenos para solucionar esta tarea, sin embargo, es probable encontrarse con conjuntos de datos desbalanceados, (que una categoría de la variable a predecir, este sobrerrepresentada que la otra), que harán que la calidad de nuestras medidas de desempeño se vea afectadas o sesgadas. Por lo que, se hizo uso de las técnicas de balanceo de datos para solucionar este problema. En este contexto la presente investigación tiene como propósito comparar el modelo de Regresión logística aplicados con técnicas de balanceo de datos y sin ella, para conocer quien brinda una mejor clasificación. El presente estudio es de tipo aplicada y transversal y se usó los datos de los postulantes a la Facultad de Ciencias de la UNP, para predecir la obtención de una vacante de ingreso. Este conjunto de datos se dividió en el 75% para entrenar y el 25% para la prueba de los modelos. Para equilibrar el conjunto de datos, se hizo uso de las técnicas de muestreo para el balanceo de datos, solo en los datos de entrenamiento. Con estos datos se entrenó el algoritmo de clasificación de Regresión Logística. Se utilizó la técnica de la validación cruzada de k=5 folios, para obtener resultados eficientes. En esta el conjunto de datos se divide en cinco partes iguales, utilizamos el primer folio para prueba y los cuatro restantes para entrenamiento, así se repite el procedimiento cuatro veces más utilizando el siguiente folio como conjunto de prueba. Se usaron 3 modelos de Regresión Logística, el primero haciendo caso omiso al problema de los datos desbalanceados, el segundo balanceando mediante sobremuestreo y el ultimo mediante la técnica de sobremuestreo de minoría sintética, Smote. Los resultados nos mostraron que el modelo trabajado con el conjunto de datos equilibrado con la técnica smote, proporciona mejores resultados que los otros modelos, con respecto a las métricas de clasificación utilizadas, para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la UNP.
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-07-17T23:19:19Z
dc.date.available.none.fl_str_mv 2021-07-17T23:19:19Z
dc.date.issued.fl_str_mv 2021
dc.type.es_PE.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.es_PE.fl_str_mv info:eu-repo/semantics/publishedVersion
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unp.edu.pe/handle/20.500.12676/2689
url https://repositorio.unp.edu.pe/handle/20.500.12676/2689
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_PE.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.*.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 Internacional
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 Internacional
http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.format.es_PE.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de Piura
dc.publisher.country.es_PE.fl_str_mv PE
dc.source.es_PE.fl_str_mv Universidad Nacional de Piura
Repositorio Institucional Digital - UNP
dc.source.none.fl_str_mv reponame:UNP-Institucional
instname:Universidad Nacional de Piura
instacron:UNP
instname_str Universidad Nacional de Piura
instacron_str UNP
institution UNP
reponame_str UNP-Institucional
collection UNP-Institucional
bitstream.url.fl_str_mv https://repositorio.unp.edu.pe/bitstreams/fbb2e523-8499-4854-bdd2-3a023fe48907/download
https://repositorio.unp.edu.pe/bitstreams/73e1d0a2-49c1-4b40-9514-efb95e92b8b3/download
https://repositorio.unp.edu.pe/bitstreams/3975c9d4-fde3-43b8-8c90-0a74829a61e8/download
https://repositorio.unp.edu.pe/bitstreams/e05c7706-7d60-4f7f-9569-21e1c930f04d/download
bitstream.checksum.fl_str_mv 376c6c7f26b164dec1bce83f3fcd8083
4077646e69c8ebb84263d3a29a5e2144
4460e5956bc1d1639be9ae6146a50347
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv DSPACE7 UNP
repository.mail.fl_str_mv dspace-help@myu.edu
_version_ 1847060151582851072
spelling Correa Becerra, Ramón CosmePanta Ipanaqué, Juan Camilo2021-07-17T23:19:19Z2021-07-17T23:19:19Z2021https://repositorio.unp.edu.pe/handle/20.500.12676/2689En la actualidad los clasificadores predictivos están siendo muy utilizados, por lo cual existen varios métodos que nos ofrecen resultados buenos para solucionar esta tarea, sin embargo, es probable encontrarse con conjuntos de datos desbalanceados, (que una categoría de la variable a predecir, este sobrerrepresentada que la otra), que harán que la calidad de nuestras medidas de desempeño se vea afectadas o sesgadas. Por lo que, se hizo uso de las técnicas de balanceo de datos para solucionar este problema. En este contexto la presente investigación tiene como propósito comparar el modelo de Regresión logística aplicados con técnicas de balanceo de datos y sin ella, para conocer quien brinda una mejor clasificación. El presente estudio es de tipo aplicada y transversal y se usó los datos de los postulantes a la Facultad de Ciencias de la UNP, para predecir la obtención de una vacante de ingreso. Este conjunto de datos se dividió en el 75% para entrenar y el 25% para la prueba de los modelos. Para equilibrar el conjunto de datos, se hizo uso de las técnicas de muestreo para el balanceo de datos, solo en los datos de entrenamiento. Con estos datos se entrenó el algoritmo de clasificación de Regresión Logística. Se utilizó la técnica de la validación cruzada de k=5 folios, para obtener resultados eficientes. En esta el conjunto de datos se divide en cinco partes iguales, utilizamos el primer folio para prueba y los cuatro restantes para entrenamiento, así se repite el procedimiento cuatro veces más utilizando el siguiente folio como conjunto de prueba. Se usaron 3 modelos de Regresión Logística, el primero haciendo caso omiso al problema de los datos desbalanceados, el segundo balanceando mediante sobremuestreo y el ultimo mediante la técnica de sobremuestreo de minoría sintética, Smote. Los resultados nos mostraron que el modelo trabajado con el conjunto de datos equilibrado con la técnica smote, proporciona mejores resultados que los otros modelos, con respecto a las métricas de clasificación utilizadas, para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la UNP.application/pdfspaUniversidad Nacional de PiuraPEinfo:eu-repo/semantics/openAccessAttribution-NonCommercial-NoDerivatives 4.0 Internacionalhttp://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional de PiuraRepositorio Institucional Digital - UNPreponame:UNP-Institucionalinstname:Universidad Nacional de Piurainstacron:UNPAUCRegresión logísticaSMOTEDatos desbalanceadoshttp://purl.org/pe-repo/ocde/ford#1.01.03Modelo de regresión logística aplicado con técnicas de balanceo de datos para clasificar el ingreso de los postulantes a la Facultad de Ciencias de la Universidad Nacional de Piurainfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionSUNEDULicenciado en EstadísticaUniversidad Nacional de Piura. Facultad de CienciasEstadísticaAlva Alva, Walter GastónAbanto Cerna, LeminQuiroz Calderón, Marcos Victoriano542016http://purl.org/pe-repo/renati/nivel#tituloProfesional19199852https://orcid.org/0000-0002-3656-1788http://purl.org/pe-repo/renati/type#tesis73695711THUMBNAILESTA-PAN-IPA-2021.pngESTA-PAN-IPA-2021.pngimage/png12395https://repositorio.unp.edu.pe/bitstreams/fbb2e523-8499-4854-bdd2-3a023fe48907/download376c6c7f26b164dec1bce83f3fcd8083MD54ORIGINALESTA-PAN-IPA-2021.pdfESTA-PAN-IPA-2021.pdfapplication/pdf1960948https://repositorio.unp.edu.pe/bitstreams/73e1d0a2-49c1-4b40-9514-efb95e92b8b3/download4077646e69c8ebb84263d3a29a5e2144MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805https://repositorio.unp.edu.pe/bitstreams/3975c9d4-fde3-43b8-8c90-0a74829a61e8/download4460e5956bc1d1639be9ae6146a50347MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.unp.edu.pe/bitstreams/e05c7706-7d60-4f7f-9569-21e1c930f04d/download8a4605be74aa9ea9d79846c1fba20a33MD5320.500.12676/2689oai:repositorio.unp.edu.pe:20.500.12676/26892021-08-06 09:52:12.086http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://repositorio.unp.edu.peDSPACE7 UNPdspace-help@myu.eduTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 12.837576
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).