Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión

Descripción del Articulo

La hipótesis en cuestión afirma que, dado el contexto teórico (i.e., definiciones matemáticas consideradas apropiadas para describir los fenómenos que se pretende estudiar) descrito en el artículo, existe una relación entre diversidad global y precisión de un ensamble de clasificadores. Por lo tanto...

Descripción completa

Detalles Bibliográficos
Autor: Guinea Ordóñez, Rodrigo José
Formato: tesis de maestría
Fecha de Publicación:2021
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:inglés
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/20818
Enlace del recurso:http://hdl.handle.net/20.500.12404/20818
Nivel de acceso:acceso abierto
Materia:Aprendizaje automático (Inteligencia artificial)
Algoritmos
Bioinformática
https://purl.org/pe-repo/ocde/ford#1.02.00
id PUCP_e099b8da61e4985eaa743aaaab51d858
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/20818
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
dc.title.alternative.en_US.fl_str_mv On diverse classifier's ensemble building by normalized variation of information and its link to its accuracy
title Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
spellingShingle Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
Guinea Ordóñez, Rodrigo José
Aprendizaje automático (Inteligencia artificial)
Algoritmos
Bioinformática
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
title_full Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
title_fullStr Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
title_full_unstemmed Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
title_sort Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión
author Guinea Ordóñez, Rodrigo José
author_facet Guinea Ordóñez, Rodrigo José
author_role author
dc.contributor.advisor.fl_str_mv Villanueva Talavera, Edwin Rafael
dc.contributor.author.fl_str_mv Guinea Ordóñez, Rodrigo José
dc.subject.es_ES.fl_str_mv Aprendizaje automático (Inteligencia artificial)
Algoritmos
Bioinformática
topic Aprendizaje automático (Inteligencia artificial)
Algoritmos
Bioinformática
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description La hipótesis en cuestión afirma que, dado el contexto teórico (i.e., definiciones matemáticas consideradas apropiadas para describir los fenómenos que se pretende estudiar) descrito en el artículo, existe una relación entre diversidad global y precisión de un ensamble de clasificadores. Por lo tanto, el propósito de esta investigación es estudiar la relación entre la precisión de ensambles y su diversidad dentro de un contexto geométrico y de información. Para lograrlo, interpretamos el problema como uno geométrico introduciendo un espacio métrico, donde los puntos son predicciones de clasificadores; la función de distancia, la métrica Variación de Información Normalizada (NVI, por sus siglas en inglés); y la construcción de un ensamble diverso es reducida a un problema de criba y novedosamente transformado a uno de programación cuadrática. La significancia estadística es asegurada haciendo uso de métodos Monte Carlo sobre 53 conjuntos de datos apropiados. El resultado es un algoritmo basado en una métrica usada en el contexto de teoría de la información, ideal para estudiar conjuntos de datos de alta dimensionalidad e inherentemente ruidosos. Por tanto, es relevante cuando el costo de adquirir muestras es muy alto; y la cantidad de variables, enorme. El marco teórico incluye las definiciones (e.g., definiciones relacionadas al concepto de diversidad o al espacio métrico utilizado), los teoremas (e.g., propiedades de espacios métricos) y algoritmos base (i.e., programación cuadrática) usados para conseguir los resultados. Los resultados muestran que, en promedio, el exceso de precisión de un ensemble diverso respecto de su contraparte aleatoria es función del valor de la diversidad global del mismo. Esto confirma la hipótesis inicial. Además, la metodología introducida para modelar el algoritmo introduce un marco que permite esclarecer la relación entre diversidad y precisión, ya que la representa en términos geométricos.
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-11-07T18:38:15Z
dc.date.available.none.fl_str_mv 2021-11-07T18:38:15Z
dc.date.created.none.fl_str_mv 2021
dc.date.issued.fl_str_mv 2021-11-07
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/20818
url http://hdl.handle.net/20.500.12404/20818
dc.language.iso.es_ES.fl_str_mv eng
language eng
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/c0c0fb71-257c-4bf1-a888-628582a289d2/download
https://tesis.pucp.edu.pe/bitstreams/54fdb53e-c79b-4c3b-95cb-b56ec7663189/download
https://tesis.pucp.edu.pe/bitstreams/357b79cc-fadc-4087-a811-8a5bbfb220ba/download
https://tesis.pucp.edu.pe/bitstreams/c81ced95-ad7c-4fbf-a0d8-4b1b44645077/download
bitstream.checksum.fl_str_mv c79d47551e74c986410054a419904696
5a4ffbc01f1b5eb70a835dac0d501661
8a4605be74aa9ea9d79846c1fba20a33
765ae6a24bb44f1462b57a132a66fa7a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834737132398182400
spelling Villanueva Talavera, Edwin RafaelGuinea Ordóñez, Rodrigo José2021-11-07T18:38:15Z2021-11-07T18:38:15Z20212021-11-07http://hdl.handle.net/20.500.12404/20818La hipótesis en cuestión afirma que, dado el contexto teórico (i.e., definiciones matemáticas consideradas apropiadas para describir los fenómenos que se pretende estudiar) descrito en el artículo, existe una relación entre diversidad global y precisión de un ensamble de clasificadores. Por lo tanto, el propósito de esta investigación es estudiar la relación entre la precisión de ensambles y su diversidad dentro de un contexto geométrico y de información. Para lograrlo, interpretamos el problema como uno geométrico introduciendo un espacio métrico, donde los puntos son predicciones de clasificadores; la función de distancia, la métrica Variación de Información Normalizada (NVI, por sus siglas en inglés); y la construcción de un ensamble diverso es reducida a un problema de criba y novedosamente transformado a uno de programación cuadrática. La significancia estadística es asegurada haciendo uso de métodos Monte Carlo sobre 53 conjuntos de datos apropiados. El resultado es un algoritmo basado en una métrica usada en el contexto de teoría de la información, ideal para estudiar conjuntos de datos de alta dimensionalidad e inherentemente ruidosos. Por tanto, es relevante cuando el costo de adquirir muestras es muy alto; y la cantidad de variables, enorme. El marco teórico incluye las definiciones (e.g., definiciones relacionadas al concepto de diversidad o al espacio métrico utilizado), los teoremas (e.g., propiedades de espacios métricos) y algoritmos base (i.e., programación cuadrática) usados para conseguir los resultados. Los resultados muestran que, en promedio, el exceso de precisión de un ensemble diverso respecto de su contraparte aleatoria es función del valor de la diversidad global del mismo. Esto confirma la hipótesis inicial. Además, la metodología introducida para modelar el algoritmo introduce un marco que permite esclarecer la relación entre diversidad y precisión, ya que la representa en términos geométricos.Ensemble models for classification are a Machine Learning approach that have frequently proven useful in generating results with higher performance and robustness tan mono-classifier models. Common advantages include tolerance for input data noise, decreased variance, and bias in predictions. Many studies justify the fact that the diversity of an ensemble is related to accuracy insomeway. However, the correct definition of diversity and the conditions needed for those statements to hold true remain unclear. The present work addresses this issue from a geometrical perspective presenting a method to build diverse ensembles based on the Normalized Variation of Information and explore which conditions correlate to the variability in its accuracy. The knowledge generated from this analysis will make it possible to clarify and bring in sight into how ensemble diversity is related to en semble accuracy.engPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/2.5/pe/Aprendizaje automático (Inteligencia artificial)AlgoritmosBioinformáticahttps://purl.org/pe-repo/ocde/ford#1.02.00Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisiónOn diverse classifier's ensemble building by normalized variation of information and its link to its accuracyinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación29714308https://orcid.org/0000-0002-6540-123044583275611077Alatrista Salas, HugoVillanueva Talavera, Edwin RafaelOlivares Poggi, Cesar Augustohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#trabajoDeInvestigacionORIGINALGUINEA_ORDOÑEZ_RODRIGO_SOBRE_CONSTRUCCION_ENSAMBLES.pdfGUINEA_ORDOÑEZ_RODRIGO_SOBRE_CONSTRUCCION_ENSAMBLES.pdfTexto completoapplication/pdf538173https://tesis.pucp.edu.pe/bitstreams/c0c0fb71-257c-4bf1-a888-628582a289d2/downloadc79d47551e74c986410054a419904696MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://tesis.pucp.edu.pe/bitstreams/54fdb53e-c79b-4c3b-95cb-b56ec7663189/download5a4ffbc01f1b5eb70a835dac0d501661MD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/357b79cc-fadc-4087-a811-8a5bbfb220ba/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTHUMBNAILGUINEA_ORDOÑEZ_RODRIGO_SOBRE_CONSTRUCCION_ENSAMBLES.pdf.jpgGUINEA_ORDOÑEZ_RODRIGO_SOBRE_CONSTRUCCION_ENSAMBLES.pdf.jpgIM Thumbnailimage/jpeg21378https://tesis.pucp.edu.pe/bitstreams/c81ced95-ad7c-4fbf-a0d8-4b1b44645077/download765ae6a24bb44f1462b57a132a66fa7aMD54falseAnonymousREAD20.500.12404/20818oai:tesis.pucp.edu.pe:20.500.12404/208182024-05-29 10:16:59.79http://creativecommons.org/licenses/by/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.89881
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).