Análisis comparativo de técnicas de machine learning sobre el método de muestreo para la predicción de diabetes

Descripción del Articulo

En siguiente trabajo se realizó con el objeto de aplicar un análisis comparativo de técnicas de Machine Learning sobre el método de muestreo para la predicción de la diabetes. Para esto, se realizó una investigación usando un método de enfoque cuantitativo, aplicado a los datos de un repositorio de...

Descripción completa

Detalles Bibliográficos
Autores: Chira Bohorquez, Piero Alejandro, Rivera Munive, Kevin
Formato: tesis de grado
Fecha de Publicación:2023
Institución:Universidad Cesar Vallejo
Repositorio:UCV-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.ucv.edu.pe:20.500.12692/133747
Enlace del recurso:https://hdl.handle.net/20.500.12692/133747
Nivel de acceso:acceso abierto
Materia:Machine learning
Métricas de precisión
Diabetes
https://purl.org/pe-repo/ocde/ford#2.02.04
id UCVV_96ec6f6d3cb15338e8858bb68dcbd9f1
oai_identifier_str oai:repositorio.ucv.edu.pe:20.500.12692/133747
network_acronym_str UCVV
network_name_str UCV-Institucional
repository_id_str 3741
dc.title.es_PE.fl_str_mv Análisis comparativo de técnicas de machine learning sobre el método de muestreo para la predicción de diabetes
title Análisis comparativo de técnicas de machine learning sobre el método de muestreo para la predicción de diabetes
spellingShingle Análisis comparativo de técnicas de machine learning sobre el método de muestreo para la predicción de diabetes
Chira Bohorquez, Piero Alejandro
Machine learning
Métricas de precisión
Diabetes
https://purl.org/pe-repo/ocde/ford#2.02.04
title_short Análisis comparativo de técnicas de machine learning sobre el método de muestreo para la predicción de diabetes
title_full Análisis comparativo de técnicas de machine learning sobre el método de muestreo para la predicción de diabetes
title_fullStr Análisis comparativo de técnicas de machine learning sobre el método de muestreo para la predicción de diabetes
title_full_unstemmed Análisis comparativo de técnicas de machine learning sobre el método de muestreo para la predicción de diabetes
title_sort Análisis comparativo de técnicas de machine learning sobre el método de muestreo para la predicción de diabetes
author Chira Bohorquez, Piero Alejandro
author_facet Chira Bohorquez, Piero Alejandro
Rivera Munive, Kevin
author_role author
author2 Rivera Munive, Kevin
author2_role author
dc.contributor.advisor.fl_str_mv Daza Vergaray, Alfredo
dc.contributor.author.fl_str_mv Chira Bohorquez, Piero Alejandro
Rivera Munive, Kevin
dc.subject.es_PE.fl_str_mv Machine learning
Métricas de precisión
Diabetes
topic Machine learning
Métricas de precisión
Diabetes
https://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.ocde.es_PE.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.02.04
description En siguiente trabajo se realizó con el objeto de aplicar un análisis comparativo de técnicas de Machine Learning sobre el método de muestreo para la predicción de la diabetes. Para esto, se realizó una investigación usando un método de enfoque cuantitativo, aplicado a los datos de un repositorio de base de datos de Kaggle de medición de factores de diabetes en mujeres de al menos 21 años de herencia indígena Pima, la misma que consta de 768 ítems, las mismas que han sido considerados como población para posteriormente ser usada como muestra. Asimismo, el estudio es de tipo aplicada, con un diseño de investigación experimental de tipo pre-experimental de un solo grupo, ya que luego de aplicar las técnicas de Machine Learning a través de métricas como rendimiento; exactitud, precisión, especificidad, sensibilidad y F1 Score, se podrá verificar los resultados y realizar la medición. Para ello, se consideró aplicar la metodología Knowledge Discovery in Databases (KDD), la misma que está divida de 5 etapas, la primera comienza con la selección de datos, la segunda y tercera etapa, con el preprocesamiento y transformación de los datos, en la cuarta etapa se efectúa la minería de datos, aplicado a la presente investigación, haciendo el entrenamiento en 6 algoritmos de aprendizaje automático Árbol de decisiones (DT), Random Forest (RF), máquina de vectores de soporte (SVM), Gradient Boosting Machine (GBM), K-vecino más cercano (K-NN) y Redes Neuronales (ANN), basando los resultado en los mejores hiperparámetros y por último en la quinta etapa, se diseñó un software para apoyar en la detección de la diabetes en función a 5 métricas, obteniendo los resultados en base a 6 algoritmos. Como resultado se obtuvo que el modelo Random Forest (RF), Gradient Boosting Machine (GBM) y Árbol de Decisiones (DT) superaron a los demás modelos, el modelo Random Forest obtuvo un 79,22%, en cuanto a la métrica exactitud, mientras que el modelo GMB obtuvo un 75,32%, de exactitud, del mismo modo el árbol de decisiones (DT) obtuvo un 74.09% en cuanto a la precisión. Por otro lado, el KNN, ANN y SVM fueron los modelos de menor rendimiento en la mayoría de las cinco métricas, KNN con un 74.02%, ANN con un 63.63 % y SVM con un 73.10% de exactitud. Finalmente, en función a los resultados obtenidos por las métricas evaluadas se puede afirmar que el uso de Técnicas de Machine Learning para la predicción de la diabetes, son favorables para el sector salud.
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2024-02-21T15:17:03Z
dc.date.available.none.fl_str_mv 2024-02-21T15:17:03Z
dc.date.issued.fl_str_mv 2023
dc.type.es_PE.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12692/133747
url https://hdl.handle.net/20.500.12692/133747
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_PE.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.es_PE.fl_str_mv https://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by/4.0/
dc.format.es_PE.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad César Vallejo
dc.publisher.country.es_PE.fl_str_mv PE
dc.source.es_PE.fl_str_mv Repositorio Institucional - UCV
Universidad César Vallejo
dc.source.none.fl_str_mv reponame:UCV-Institucional
instname:Universidad Cesar Vallejo
instacron:UCV
instname_str Universidad Cesar Vallejo
instacron_str UCV
institution UCV
reponame_str UCV-Institucional
collection UCV-Institucional
bitstream.url.fl_str_mv https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/1/Chira_BPA-Rivera_MK-SD.pdf
https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/2/Chira_BPA-Rivera_MK-IT.pdf
https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/3/Chira_BPA-Rivera_MK.pdf
https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/4/license.txt
https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/5/Chira_BPA-Rivera_MK-SD.pdf.txt
https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/7/Chira_BPA-Rivera_MK-IT.pdf.txt
https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/9/Chira_BPA-Rivera_MK.pdf.txt
https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/6/Chira_BPA-Rivera_MK-SD.pdf.jpg
https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/8/Chira_BPA-Rivera_MK-IT.pdf.jpg
https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/10/Chira_BPA-Rivera_MK.pdf.jpg
bitstream.checksum.fl_str_mv 98f1078374c503d4fc6cb2f67f3e70c8
48c95c06415b83efc5b8ddbd99c3c2d2
67b4d5335d0f098968dc230adced7317
8a4605be74aa9ea9d79846c1fba20a33
8dbfce3471461ab8ab80c8c4f8566603
3048842a8c32f50d0536cd72f84c5bab
4d3ae8555efb84c8973f9181095d3eff
f539499d343c71589c364ece5ba9424c
3f96db6b2468af58221d3b7a006958b5
f539499d343c71589c364ece5ba9424c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de la Universidad César Vallejo
repository.mail.fl_str_mv repositorio@ucv.edu.pe
_version_ 1807921180864151552
spelling Daza Vergaray, AlfredoChira Bohorquez, Piero AlejandroRivera Munive, Kevin2024-02-21T15:17:03Z2024-02-21T15:17:03Z2023https://hdl.handle.net/20.500.12692/133747En siguiente trabajo se realizó con el objeto de aplicar un análisis comparativo de técnicas de Machine Learning sobre el método de muestreo para la predicción de la diabetes. Para esto, se realizó una investigación usando un método de enfoque cuantitativo, aplicado a los datos de un repositorio de base de datos de Kaggle de medición de factores de diabetes en mujeres de al menos 21 años de herencia indígena Pima, la misma que consta de 768 ítems, las mismas que han sido considerados como población para posteriormente ser usada como muestra. Asimismo, el estudio es de tipo aplicada, con un diseño de investigación experimental de tipo pre-experimental de un solo grupo, ya que luego de aplicar las técnicas de Machine Learning a través de métricas como rendimiento; exactitud, precisión, especificidad, sensibilidad y F1 Score, se podrá verificar los resultados y realizar la medición. Para ello, se consideró aplicar la metodología Knowledge Discovery in Databases (KDD), la misma que está divida de 5 etapas, la primera comienza con la selección de datos, la segunda y tercera etapa, con el preprocesamiento y transformación de los datos, en la cuarta etapa se efectúa la minería de datos, aplicado a la presente investigación, haciendo el entrenamiento en 6 algoritmos de aprendizaje automático Árbol de decisiones (DT), Random Forest (RF), máquina de vectores de soporte (SVM), Gradient Boosting Machine (GBM), K-vecino más cercano (K-NN) y Redes Neuronales (ANN), basando los resultado en los mejores hiperparámetros y por último en la quinta etapa, se diseñó un software para apoyar en la detección de la diabetes en función a 5 métricas, obteniendo los resultados en base a 6 algoritmos. Como resultado se obtuvo que el modelo Random Forest (RF), Gradient Boosting Machine (GBM) y Árbol de Decisiones (DT) superaron a los demás modelos, el modelo Random Forest obtuvo un 79,22%, en cuanto a la métrica exactitud, mientras que el modelo GMB obtuvo un 75,32%, de exactitud, del mismo modo el árbol de decisiones (DT) obtuvo un 74.09% en cuanto a la precisión. Por otro lado, el KNN, ANN y SVM fueron los modelos de menor rendimiento en la mayoría de las cinco métricas, KNN con un 74.02%, ANN con un 63.63 % y SVM con un 73.10% de exactitud. Finalmente, en función a los resultados obtenidos por las métricas evaluadas se puede afirmar que el uso de Técnicas de Machine Learning para la predicción de la diabetes, son favorables para el sector salud.Lima NorteEscuela de Ingeniería de SistemasSistema de Información y ComunicacionesTecnologías de la información y comunicaciónDesarrollo económico, empleo y emprendimientoTrabajo decente y crecimiento económicoapplication/pdfspaUniversidad César VallejoPEinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by/4.0/Repositorio Institucional - UCVUniversidad César Vallejoreponame:UCV-Institucionalinstname:Universidad Cesar Vallejoinstacron:UCVMachine learningMétricas de precisiónDiabeteshttps://purl.org/pe-repo/ocde/ford#2.02.04Análisis comparativo de técnicas de machine learning sobre el método de muestreo para la predicción de diabetesinfo:eu-repo/semantics/bachelorThesisSUNEDUIngeniería de SistemasUniversidad César Vallejo. Facultad de Ingeniería y ArquitecturaIngeniero de Sistemas40466240https://orcid.org/0000-0002-2259-10704397669147977218612076Estrada Aro, Willabaldo MarcelinoPerez Huaman, OmarDaza Vergaray, Alfredohttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesisORIGINALChira_BPA-Rivera_MK-SD.pdfChira_BPA-Rivera_MK-SD.pdfapplication/pdf5752768https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/1/Chira_BPA-Rivera_MK-SD.pdf98f1078374c503d4fc6cb2f67f3e70c8MD51Chira_BPA-Rivera_MK-IT.pdfChira_BPA-Rivera_MK-IT.pdfapplication/pdf10100577https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/2/Chira_BPA-Rivera_MK-IT.pdf48c95c06415b83efc5b8ddbd99c3c2d2MD52Chira_BPA-Rivera_MK.pdfChira_BPA-Rivera_MK.pdfapplication/pdf5752768https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/3/Chira_BPA-Rivera_MK.pdf67b4d5335d0f098968dc230adced7317MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/4/license.txt8a4605be74aa9ea9d79846c1fba20a33MD54TEXTChira_BPA-Rivera_MK-SD.pdf.txtChira_BPA-Rivera_MK-SD.pdf.txtExtracted texttext/plain142492https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/5/Chira_BPA-Rivera_MK-SD.pdf.txt8dbfce3471461ab8ab80c8c4f8566603MD55Chira_BPA-Rivera_MK-IT.pdf.txtChira_BPA-Rivera_MK-IT.pdf.txtExtracted texttext/plain4572https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/7/Chira_BPA-Rivera_MK-IT.pdf.txt3048842a8c32f50d0536cd72f84c5babMD57Chira_BPA-Rivera_MK.pdf.txtChira_BPA-Rivera_MK.pdf.txtExtracted texttext/plain146676https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/9/Chira_BPA-Rivera_MK.pdf.txt4d3ae8555efb84c8973f9181095d3effMD59THUMBNAILChira_BPA-Rivera_MK-SD.pdf.jpgChira_BPA-Rivera_MK-SD.pdf.jpgGenerated Thumbnailimage/jpeg5131https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/6/Chira_BPA-Rivera_MK-SD.pdf.jpgf539499d343c71589c364ece5ba9424cMD56Chira_BPA-Rivera_MK-IT.pdf.jpgChira_BPA-Rivera_MK-IT.pdf.jpgGenerated Thumbnailimage/jpeg5574https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/8/Chira_BPA-Rivera_MK-IT.pdf.jpg3f96db6b2468af58221d3b7a006958b5MD58Chira_BPA-Rivera_MK.pdf.jpgChira_BPA-Rivera_MK.pdf.jpgGenerated Thumbnailimage/jpeg5131https://repositorio.ucv.edu.pe/bitstream/20.500.12692/133747/10/Chira_BPA-Rivera_MK.pdf.jpgf539499d343c71589c364ece5ba9424cMD51020.500.12692/133747oai:repositorio.ucv.edu.pe:20.500.12692/1337472024-02-21 22:12:21.116Repositorio de la Universidad César Vallejorepositorio@ucv.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.90587
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).