Ensayo en modelos predictivos de Data Mining para diabetes en etapa temprana
Descripción del Articulo
Diabetes has become such a common, but deadly, chronic health problem that it has _x000D_ increased dramatically in recent years. About 50% of all people with diabetes are not _x000D_ diagnosed due to its long-term asymptomatic phase, which is why detecting diabetes in an _x000D_ early phase is of v...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2023 |
| Institución: | Universidad Nacional de Trujillo |
| Repositorio: | UNITRU-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:dspace.unitru.edu.pe:20.500.14414/18558 |
| Enlace del recurso: | https://hdl.handle.net/20.500.14414/18558 |
| Nivel de acceso: | acceso abierto |
| Materia: | Riesgo de diabetes Etapa prematura Minería de datos Regresión logística Máquina de Soporte Vectorial Métricas de evaluación |
| id |
UNIT_f67700e0f915853c5c22c8fd8eedd098 |
|---|---|
| oai_identifier_str |
oai:dspace.unitru.edu.pe:20.500.14414/18558 |
| network_acronym_str |
UNIT |
| network_name_str |
UNITRU-Tesis |
| repository_id_str |
4801 |
| dc.title.es_PE.fl_str_mv |
Ensayo en modelos predictivos de Data Mining para diabetes en etapa temprana |
| title |
Ensayo en modelos predictivos de Data Mining para diabetes en etapa temprana |
| spellingShingle |
Ensayo en modelos predictivos de Data Mining para diabetes en etapa temprana Leiva Quispe, José Enrique Riesgo de diabetes Etapa prematura Minería de datos Regresión logística Máquina de Soporte Vectorial Métricas de evaluación |
| title_short |
Ensayo en modelos predictivos de Data Mining para diabetes en etapa temprana |
| title_full |
Ensayo en modelos predictivos de Data Mining para diabetes en etapa temprana |
| title_fullStr |
Ensayo en modelos predictivos de Data Mining para diabetes en etapa temprana |
| title_full_unstemmed |
Ensayo en modelos predictivos de Data Mining para diabetes en etapa temprana |
| title_sort |
Ensayo en modelos predictivos de Data Mining para diabetes en etapa temprana |
| author |
Leiva Quispe, José Enrique |
| author_facet |
Leiva Quispe, José Enrique |
| author_role |
author |
| dc.contributor.advisor.fl_str_mv |
Neciosup Obando, Aurora Rosa |
| dc.contributor.author.fl_str_mv |
Leiva Quispe, José Enrique |
| dc.subject.es_PE.fl_str_mv |
Riesgo de diabetes Etapa prematura Minería de datos Regresión logística Máquina de Soporte Vectorial Métricas de evaluación |
| topic |
Riesgo de diabetes Etapa prematura Minería de datos Regresión logística Máquina de Soporte Vectorial Métricas de evaluación |
| description |
Diabetes has become such a common, but deadly, chronic health problem that it has _x000D_ increased dramatically in recent years. About 50% of all people with diabetes are not _x000D_ diagnosed due to its long-term asymptomatic phase, which is why detecting diabetes in an _x000D_ early phase is of vital importance. Science has advanced so much in the field of health that _x000D_ data mining classification techniques have been well accepted by the scientific community _x000D_ for the predictive model of disease risk. In the present investigation, a set of 520 data has _x000D_ been used, which information was collected through a direct survey of patients from the _x000D_ Sylhet Diabetes Hospital in Bangladesh. The respective analysis was carried out using _x000D_ classification algorithms such as Logistic Regression (classical statistical technique) and _x000D_ Support Vector Machine (machine learning technique). After adjusting the models and _x000D_ evaluating using metrics such as accuracy, sensitivity and AUC (in that order), it has been _x000D_ found that the Vector Support Machine model has a better fit and predictive power (0.98, _x000D_ 0.98, 0.99) compared to the model of logistic regression (0.92, 0.94, 0.97). Finally, as a _x000D_ suggestion, useful tips were raised to control risk factors |
| publishDate |
2023 |
| dc.date.accessioned.none.fl_str_mv |
8/3/2023 11:13 |
| dc.date.available.none.fl_str_mv |
8/3/2023 11:13 |
| dc.date.issued.fl_str_mv |
2023 |
| dc.type.es_PE.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| format |
bachelorThesis |
| dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/20.500.14414/18558 |
| url |
https://hdl.handle.net/20.500.14414/18558 |
| dc.language.iso.es_PE.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.es_PE.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
| dc.publisher.es_PE.fl_str_mv |
Universidad Nacional de Trujillo |
| dc.source.es_PE.fl_str_mv |
Universidad Nacional de Trujillo Repositorio institucional - UNITRU |
| dc.source.none.fl_str_mv |
reponame:UNITRU-Tesis instname:Universidad Nacional de Trujillo instacron:UNITRU |
| instname_str |
Universidad Nacional de Trujillo |
| instacron_str |
UNITRU |
| institution |
UNITRU |
| reponame_str |
UNITRU-Tesis |
| collection |
UNITRU-Tesis |
| bitstream.url.fl_str_mv |
https://dspace.unitru.edu.pe/bitstreams/9e00f1ab-901e-41b9-9ddf-d28ce91f639b/download https://dspace.unitru.edu.pe/bitstreams/ef564d9a-66d3-42c1-b9d3-b013a792bbfa/download |
| bitstream.checksum.fl_str_mv |
f7c45fc7563d5b175a7888b090e004b5 8a4605be74aa9ea9d79846c1fba20a33 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio Institucional - UNITRU |
| repository.mail.fl_str_mv |
repositorios@unitru.edu.pe |
| _version_ |
1807289952845692928 |
| spelling |
Neciosup Obando, Aurora RosaLeiva Quispe, José Enrique8/3/2023 11:138/3/2023 11:132023https://hdl.handle.net/20.500.14414/18558Diabetes has become such a common, but deadly, chronic health problem that it has _x000D_ increased dramatically in recent years. About 50% of all people with diabetes are not _x000D_ diagnosed due to its long-term asymptomatic phase, which is why detecting diabetes in an _x000D_ early phase is of vital importance. Science has advanced so much in the field of health that _x000D_ data mining classification techniques have been well accepted by the scientific community _x000D_ for the predictive model of disease risk. In the present investigation, a set of 520 data has _x000D_ been used, which information was collected through a direct survey of patients from the _x000D_ Sylhet Diabetes Hospital in Bangladesh. The respective analysis was carried out using _x000D_ classification algorithms such as Logistic Regression (classical statistical technique) and _x000D_ Support Vector Machine (machine learning technique). After adjusting the models and _x000D_ evaluating using metrics such as accuracy, sensitivity and AUC (in that order), it has been _x000D_ found that the Vector Support Machine model has a better fit and predictive power (0.98, _x000D_ 0.98, 0.99) compared to the model of logistic regression (0.92, 0.94, 0.97). Finally, as a _x000D_ suggestion, useful tips were raised to control risk factorsLa diabetes se ha vuelto un problema de salud crónica tan común, pero a la vez _x000D_ mortal, que se ha incrementado considerablemente en los últimos años. Alrededor del 50% de todas las personas que padecen diabetes no están diagnosticadas debido a su fase asintomática a largo plazo, es por ello que detectar la diabetes en una etapa prematura es de vital importancia. La ciencia ha avanzado tanto en el campo de la salud que las técnicas de clasificación de minería de datos han sido bien aceptadas por la comunidad científica para el modelo predictivo de riesgo de la enfermedad. En la presente investigación, se ha utilizado un conjunto de 520 datos, el cual se recopiló información mediante una encuesta directa a los pacientes del Sylhet Diabetes Hospital en Bangladesh. Se procedió a realizar el respectivo análisis utilizando algoritmos de clasificación como Regresión Logística (técnica estadística clásica) y Máquina de Soporte Vectorial (técnica de aprendizaje automático). _x000D_ Luego de ajustar los modelos y evaluar mediante métricas como accuracy, sensibilidad y _x000D_ AUC (en ese orden), se ha encontrado que el modelo de Máquina de Soporte Vectorial tiene un mejor ajuste y poder predictivo (0.98, 0.98, 0.99) frente al modelo de regresión logística (0.92, 0.94, 0.97). Posteriormente, como sugerencia se planteó consejos útiles para controlar los factores de riesgoTesisspaUniversidad Nacional de Trujilloinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Universidad Nacional de TrujilloRepositorio institucional - UNITRUreponame:UNITRU-Tesisinstname:Universidad Nacional de Trujilloinstacron:UNITRURiesgo de diabetesEtapa prematuraMinería de datosRegresión logísticaMáquina de Soporte VectorialMétricas de evaluaciónEnsayo en modelos predictivos de Data Mining para diabetes en etapa tempranainfo:eu-repo/semantics/bachelorThesisSUNEDUTítulo ProfesionalIngeniero EstadísticoEstadísticaUniversidad Nacional de Trujillo.Facultad de Ciencias Físicas y MatemáticasORIGINALLEIVA QUISPE, José Enrique.pdfLEIVA QUISPE, José Enrique.pdfapplication/pdf4376256https://dspace.unitru.edu.pe/bitstreams/9e00f1ab-901e-41b9-9ddf-d28ce91f639b/downloadf7c45fc7563d5b175a7888b090e004b5MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://dspace.unitru.edu.pe/bitstreams/ef564d9a-66d3-42c1-b9d3-b013a792bbfa/download8a4605be74aa9ea9d79846c1fba20a33MD5220.500.14414/18558oai:dspace.unitru.edu.pe:20.500.14414/185582024-04-21 11:40:44.012http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://dspace.unitru.edu.peRepositorio Institucional - UNITRUrepositorios@unitru.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
| score |
13.806414 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).