Agrupamiento de textos basado en la generación de Embeddings

Cachay Guivin, Anthony Wainer

Agrupamiento de textos basado en la generación de Embeddings

Descripción del Articulo

Actualmente, gracias a los avances tecnológicos, principalmente en el mundo de la informática se logra disponer de una gran cantidad de información, que en su mayoría son una composición de signos codificados a nivel computacional que forman una unidad de sentido, como son los textos. Debido a la va...

Descripción completa

Detalles Bibliográficos
Autor:	Cachay Guivin, Anthony Wainer
Formato:	tesis de maestría
Fecha de Publicación:	2022
Institución:	Pontificia Universidad Católica del Perú
Repositorio:	PUCP-Tesis
Lenguaje:	español
OAI Identifier:	oai:tesis.pucp.edu.pe:20.500.12404/23159
Enlace del recurso:	http://hdl.handle.net/20.500.12404/23159
Nivel de acceso:	acceso abierto
Materia:	Procesamiento en lenguaje natural (Informática) Inteligencia artificial Sistemas embebidos (Computadoras) https://purl.org/pe-repo/ocde/ford#1.02.00

id	PUCP_9909dbd69cb7b48bff9d29a4a698744d
oai_identifier_str	oai:tesis.pucp.edu.pe:20.500.12404/23159
network_acronym_str	PUCP
network_name_str	PUCP-Tesis
repository_id_str	.
dc.title.es_ES.fl_str_mv	Agrupamiento de textos basado en la generación de Embeddings
title	Agrupamiento de textos basado en la generación de Embeddings
spellingShingle	Agrupamiento de textos basado en la generación de Embeddings Cachay Guivin, Anthony Wainer Procesamiento en lenguaje natural (Informática) Inteligencia artificial Sistemas embebidos (Computadoras) https://purl.org/pe-repo/ocde/ford#1.02.00
title_short	Agrupamiento de textos basado en la generación de Embeddings
title_full	Agrupamiento de textos basado en la generación de Embeddings
title_fullStr	Agrupamiento de textos basado en la generación de Embeddings
title_full_unstemmed	Agrupamiento de textos basado en la generación de Embeddings
title_sort	Agrupamiento de textos basado en la generación de Embeddings
author	Cachay Guivin, Anthony Wainer
author_facet	Cachay Guivin, Anthony Wainer
author_role	author
dc.contributor.advisor.fl_str_mv	Beltrán Castañón, César Armando
dc.contributor.author.fl_str_mv	Cachay Guivin, Anthony Wainer
dc.subject.es_ES.fl_str_mv	Procesamiento en lenguaje natural (Informática) Inteligencia artificial Sistemas embebidos (Computadoras)
topic	Procesamiento en lenguaje natural (Informática) Inteligencia artificial Sistemas embebidos (Computadoras) https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv	https://purl.org/pe-repo/ocde/ford#1.02.00
description	Actualmente, gracias a los avances tecnológicos, principalmente en el mundo de la informática se logra disponer de una gran cantidad de información, que en su mayoría son una composición de signos codificados a nivel computacional que forman una unidad de sentido, como son los textos. Debido a la variabilidad y alta volumetría de información navegable en internet hace que poder agrupar información veraz sea una tarea complicada. El avance computacional del lenguaje de procesamiento natural está creciendo cada día para solucionar estos problemas. El presente trabajo de investigación estudia la forma como se agrupan los textos con la generación de Embeddings. En particular, se centra en usar diferentes métodos para aplicar modelos supervisados y no supervisados para que se puedan obtener resultados eficientes al momento de toparse con tareas de agrupamiento automático. Se trabajó con cinco Datasets, y como resultado de la implementación de los modelos supervisados se pudo determinar que el mejor Embedding es FastText implementado con Gensim y aplicado en modelos basados en boosting. Para los modelos no supervisados el mejor Embedding es Glove aplicado en modelos de redes neuronales con AutoEncoder y capa K-means.
publishDate	2022
dc.date.accessioned.none.fl_str_mv	2022-08-19T23:11:42Z
dc.date.available.none.fl_str_mv	2022-08-19T23:11:42Z
dc.date.created.none.fl_str_mv	2022
dc.date.issued.fl_str_mv	2022-08-19
dc.type.es_ES.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
dc.identifier.uri.none.fl_str_mv	http://hdl.handle.net/20.500.12404/23159
url	http://hdl.handle.net/20.500.12404/23159
dc.language.iso.es_ES.fl_str_mv	spa
language	spa
dc.relation.ispartof.fl_str_mv	SUNEDU
dc.rights.es_ES.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv	http://creativecommons.org/licenses/by-sa/2.5/pe/
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv	Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv	PE
dc.source.none.fl_str_mv	reponame:PUCP-Tesis instname:Pontificia Universidad Católica del Perú instacron:PUCP
instname_str	Pontificia Universidad Católica del Perú
instacron_str	PUCP
institution	PUCP
reponame_str	PUCP-Tesis
collection	PUCP-Tesis
bitstream.url.fl_str_mv	https://tesis.pucp.edu.pe/bitstreams/7e8ac92c-1e73-4774-b982-f8986a0ac391/download https://tesis.pucp.edu.pe/bitstreams/a208f344-c908-4dc1-8c75-d76f24d8c797/download https://tesis.pucp.edu.pe/bitstreams/021c389a-8164-49c2-ac24-779c772319b3/download https://tesis.pucp.edu.pe/bitstreams/efef6e37-c9db-4b08-9b5f-d568856f310d/download
bitstream.checksum.fl_str_mv	d37a87e10f168411915bbe5757eed5d3 b7a36ada981bb81cbd668e3fd4618f2a 8a4605be74aa9ea9d79846c1fba20a33 b437c11ce8b3078af6415fb1c2c50220
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositorio de Tesis PUCP
repository.mail.fl_str_mv	raul.sifuentes@pucp.pe
_version_	1834736810985521152
spelling	Beltrán Castañón, César ArmandoCachay Guivin, Anthony Wainer2022-08-19T23:11:42Z2022-08-19T23:11:42Z20222022-08-19http://hdl.handle.net/20.500.12404/23159Actualmente, gracias a los avances tecnológicos, principalmente en el mundo de la informática se logra disponer de una gran cantidad de información, que en su mayoría son una composición de signos codificados a nivel computacional que forman una unidad de sentido, como son los textos. Debido a la variabilidad y alta volumetría de información navegable en internet hace que poder agrupar información veraz sea una tarea complicada. El avance computacional del lenguaje de procesamiento natural está creciendo cada día para solucionar estos problemas. El presente trabajo de investigación estudia la forma como se agrupan los textos con la generación de Embeddings. En particular, se centra en usar diferentes métodos para aplicar modelos supervisados y no supervisados para que se puedan obtener resultados eficientes al momento de toparse con tareas de agrupamiento automático. Se trabajó con cinco Datasets, y como resultado de la implementación de los modelos supervisados se pudo determinar que el mejor Embedding es FastText implementado con Gensim y aplicado en modelos basados en boosting. Para los modelos no supervisados el mejor Embedding es Glove aplicado en modelos de redes neuronales con AutoEncoder y capa K-means.Nowadays, thanks to technological advances, mainly in the world of information technology, a large amount of information is available, most of which is a composition of signs encoded at a computational level that form a unit of meaning, such as texts. Due to the variability and high volume of navigable information on the Internet, grouping truthful information is a complicated task. The computational advance of natural language processing is growing every day to solve these problems. The present research work studies the way texts are clustered with the generation of Embeddings. In particular, it focuses on using different methods to apply supervised and unsupervised models so that efficient results can be obtained when encountering automatic clustering tasks. Five Datasets were worked with, and as a result of the implementation of the supervised models it was determined that the best Embedding is FastText implemented with Gensim and applied in models based on boosting. For the unsupervised models the best Embedding is Glove applied in neural network models with AutoEncoder and K-means layer.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-sa/2.5/pe/Procesamiento en lenguaje natural (Informática)Inteligencia artificialSistemas embebidos (Computadoras)https://purl.org/pe-repo/ocde/ford#1.02.00Agrupamiento de textos basado en la generación de Embeddingsinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación29561260https://orcid.org/0000-0002-0173-414071535030611087Pineda Ancco, Ferdinand EdgardoBeltran Castañon, Cesar ArmandoGomez Montoya, Hector Erasmohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALCACHAY_GUIVIN_ANTHONY_WAINER.pdfCACHAY_GUIVIN_ANTHONY_WAINER.pdfTexto completoapplication/pdf2692304https://tesis.pucp.edu.pe/bitstreams/7e8ac92c-1e73-4774-b982-f8986a0ac391/downloadd37a87e10f168411915bbe5757eed5d3MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031https://tesis.pucp.edu.pe/bitstreams/a208f344-c908-4dc1-8c75-d76f24d8c797/downloadb7a36ada981bb81cbd668e3fd4618f2aMD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/021c389a-8164-49c2-ac24-779c772319b3/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTHUMBNAILCACHAY_GUIVIN_ANTHONY_WAINER.pdf.jpgCACHAY_GUIVIN_ANTHONY_WAINER.pdf.jpgIM Thumbnailimage/jpeg23066https://tesis.pucp.edu.pe/bitstreams/efef6e37-c9db-4b08-9b5f-d568856f310d/downloadb437c11ce8b3078af6415fb1c2c50220MD54falseAnonymousREAD20.500.12404/23159oai:tesis.pucp.edu.pe:20.500.12404/231592024-05-29 10:11:51.937http://creativecommons.org/licenses/by-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score	13.918711

Agrupamiento de textos basado en la generación de Embeddings

Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).

Agrupamiento de textos basado en la generación de Embeddings

Descripción del Articulo

Ejemplares Similares