Análisis de Sentimiento para lenguajes de bajos recursos, Dominio: Shipibo-Konibo

Descripción del Articulo

Con el objetivo de apoyar a comunidades con bajos recursos digitales en su integración a la sociedad, se desarrolló un modelo de análisis de sentimiento para lenguas indígenas, permitiendo la implementación de tecnologías como chatbots y asistentes virtuales que puedan operar en su lengua materna. E...

Descripción completa

Detalles Bibliográficos
Autor: Florez Tapia, Jose Alejandro
Formato: tesis de maestría
Fecha de Publicación:2025
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/32897
Enlace del recurso:http://hdl.handle.net/20.500.12404/32897
Nivel de acceso:acceso abierto
Materia:Procesamiento en lenguaje natural (Computación)
Minería de datos
Inteligencia artificial
Brecha digital
Lenguas indígenas--Perú--(Shipibo-Conibo)
https://purl.org/pe-repo/ocde/ford#1.02.02
id PUCP_be5c5ecd67d7f88deaa371b18bbe4747
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/32897
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.none.fl_str_mv Análisis de Sentimiento para lenguajes de bajos recursos, Dominio: Shipibo-Konibo
title Análisis de Sentimiento para lenguajes de bajos recursos, Dominio: Shipibo-Konibo
spellingShingle Análisis de Sentimiento para lenguajes de bajos recursos, Dominio: Shipibo-Konibo
Florez Tapia, Jose Alejandro
Procesamiento en lenguaje natural (Computación)
Minería de datos
Inteligencia artificial
Brecha digital
Lenguas indígenas--Perú--(Shipibo-Conibo)
https://purl.org/pe-repo/ocde/ford#1.02.02
title_short Análisis de Sentimiento para lenguajes de bajos recursos, Dominio: Shipibo-Konibo
title_full Análisis de Sentimiento para lenguajes de bajos recursos, Dominio: Shipibo-Konibo
title_fullStr Análisis de Sentimiento para lenguajes de bajos recursos, Dominio: Shipibo-Konibo
title_full_unstemmed Análisis de Sentimiento para lenguajes de bajos recursos, Dominio: Shipibo-Konibo
title_sort Análisis de Sentimiento para lenguajes de bajos recursos, Dominio: Shipibo-Konibo
author Florez Tapia, Jose Alejandro
author_facet Florez Tapia, Jose Alejandro
author_role author
dc.contributor.advisor.fl_str_mv Cardoso Yllanes, Gerardo
dc.contributor.author.fl_str_mv Florez Tapia, Jose Alejandro
dc.subject.none.fl_str_mv Procesamiento en lenguaje natural (Computación)
Minería de datos
Inteligencia artificial
Brecha digital
Lenguas indígenas--Perú--(Shipibo-Conibo)
topic Procesamiento en lenguaje natural (Computación)
Minería de datos
Inteligencia artificial
Brecha digital
Lenguas indígenas--Perú--(Shipibo-Conibo)
https://purl.org/pe-repo/ocde/ford#1.02.02
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.02
description Con el objetivo de apoyar a comunidades con bajos recursos digitales en su integración a la sociedad, se desarrolló un modelo de análisis de sentimiento para lenguas indígenas, permitiendo la implementación de tecnologías como chatbots y asistentes virtuales que puedan operar en su lengua materna. Esta propuesta busca no solo facilitar un mayor acceso a servicios esenciales en áreas como educación, salud y gobierno, sino también promover la preservación cultural y lingüística de comunidades históricamente marginadas. La incorporación de herramientas de este tipo representa una estrategia para reducir la brecha digital y garantizar un acceso más equitativo a los beneficios de la transformación tecnológica. Para el idioma Shipibo-Konibo, se utilizaron diversas técnicas de aumento de datos basadas en errores controlados, incluyendo alteraciones aleatorias, proximidad de teclado, ambigüedad fonema-grafema y similitud silábica. Estas técnicas contribuyeron significativamente a incrementar la diversidad y representatividad del corpus, permitiendo que el modelo entrenado reflejara de manera más realista la variabilidad natural del lenguaje. Asimismo, se evaluaron modelos de embeddings multilingües como XLM-Roberta, LaBSE y SIMCSE, seleccionando finalmente el más adecuado por su capacidad de generalización y desempeño en escenarios multilingües. Los experimentos realizados lograron superar el desafío de clasificar oraciones en categorías positivas, negativas y neutras, incluso en contextos de datos limitados. Este avance constituye un paso importante hacia la inclusión tecnológica de comunidades indígenas, ofreciendo herramientas adaptadas a sus necesidades lingüísticas y fomentando un ecosistema digital más diverso e inclusivo.
publishDate 2025
dc.date.created.none.fl_str_mv 2025
dc.date.accessioned.none.fl_str_mv 2026-01-13T16:04:05Z
dc.date.available.none.fl_str_mv 2026-01-13T16:04:05Z
dc.date.issued.fl_str_mv 2026-01-13
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/32897
url http://hdl.handle.net/20.500.12404/32897
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-sa/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.none.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/c33a3cf4-b9ab-487a-94a4-ac4cb69b49b8/download
https://tesis.pucp.edu.pe/bitstreams/47b16e20-a609-47a5-b9b0-edffd0642db0/download
https://tesis.pucp.edu.pe/bitstreams/6858df29-bfe8-46d8-8a8f-b8b95aa3bf96/download
https://tesis.pucp.edu.pe/bitstreams/3268e257-93ae-41a5-b167-e3c428c2a961/download
https://tesis.pucp.edu.pe/bitstreams/fd67c4b2-e514-40f4-9139-b93012d95348/download
https://tesis.pucp.edu.pe/bitstreams/065e0a8e-bd8f-481b-bbeb-c5a27ab016cb/download
https://tesis.pucp.edu.pe/bitstreams/3d29ba27-3fde-4ba9-9aa3-4e3a399c7404/download
bitstream.checksum.fl_str_mv 5491cfa034a95a82a3e332394e50853e
34207e81ae6f7bea11eb815f11bbc3bc
bb9bdc0b3349e4284e09149f943790b4
29aac5cc1fdcb1a0933e5592a7d6e357
7f38d266126f49e1c22305b841344d92
9d6bb14b72a77d8a1fdd3984b4235e33
792a4ac1f4436bb3012ad239ed1a768d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1855030503381401600
spelling Cardoso Yllanes, GerardoFlorez Tapia, Jose Alejandro2026-01-13T16:04:05Z2026-01-13T16:04:05Z20252026-01-13http://hdl.handle.net/20.500.12404/32897Con el objetivo de apoyar a comunidades con bajos recursos digitales en su integración a la sociedad, se desarrolló un modelo de análisis de sentimiento para lenguas indígenas, permitiendo la implementación de tecnologías como chatbots y asistentes virtuales que puedan operar en su lengua materna. Esta propuesta busca no solo facilitar un mayor acceso a servicios esenciales en áreas como educación, salud y gobierno, sino también promover la preservación cultural y lingüística de comunidades históricamente marginadas. La incorporación de herramientas de este tipo representa una estrategia para reducir la brecha digital y garantizar un acceso más equitativo a los beneficios de la transformación tecnológica. Para el idioma Shipibo-Konibo, se utilizaron diversas técnicas de aumento de datos basadas en errores controlados, incluyendo alteraciones aleatorias, proximidad de teclado, ambigüedad fonema-grafema y similitud silábica. Estas técnicas contribuyeron significativamente a incrementar la diversidad y representatividad del corpus, permitiendo que el modelo entrenado reflejara de manera más realista la variabilidad natural del lenguaje. Asimismo, se evaluaron modelos de embeddings multilingües como XLM-Roberta, LaBSE y SIMCSE, seleccionando finalmente el más adecuado por su capacidad de generalización y desempeño en escenarios multilingües. Los experimentos realizados lograron superar el desafío de clasificar oraciones en categorías positivas, negativas y neutras, incluso en contextos de datos limitados. Este avance constituye un paso importante hacia la inclusión tecnológica de comunidades indígenas, ofreciendo herramientas adaptadas a sus necesidades lingüísticas y fomentando un ecosistema digital más diverso e inclusivo.With the objective of supporting communities with low digital resources in their integration into society, a sentiment analysis model for indigenous languages was developed, allowing the implementation of technologies such as chatbots and virtual assistants that can operate in their mother tongue. This proposal seeks not only to facilitate greater access to essential services in areas such as education, health, and government, but also to promote the cultural and linguistic preservation of historically marginalized communities. The incorporation of such tools represents a strategy to reduce the digital divide and to guarantee more equitable access to the benefits of technological transformation. For the Shipibo-Konibo language, various data augmentation techniques based on controlled errors were applied, including random alterations, keyboard proximity, phoneme-grapheme ambiguity, and syllabic similarity. These techniques significantly contributed to increasing the diversity and representativeness of the corpus, allowing the trained model to more realistically reflect the natural variability of the language. Likewise, multilingual embedding models such as XLM-Roberta, LaBSE, and SIMCSE were evaluated, ultimately selecting the most suitable one for its generalization capacity and performance in multilingual scenarios. The experiments carried out managed to overcome the challenge of classifying sentences into positive, negative, and neutral categories, even in low-data contexts. This advancement constitutes an important step toward the technological inclusion of indigenous communities, offering tools adapted to their linguistic needs and fostering a more diverse and inclusive digital ecosystem.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-sa/2.5/pe/Procesamiento en lenguaje natural (Computación)Minería de datosInteligencia artificialBrecha digitalLenguas indígenas--Perú--(Shipibo-Conibo)https://purl.org/pe-repo/ocde/ford#1.02.02Análisis de Sentimiento para lenguajes de bajos recursos, Dominio: Shipibo-Koniboinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación48155961https://orcid.org/0009-0009-5200-190646524065611087Melgar Sasieta, Hector AndrésCardoso Yllanes, GerardoOncevay Marcos, Felix Arturohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#trabajoDeInvestigacionORIGINALFLOREZ_TAPIA_JOSE_ALEJANDRO.pdfFLOREZ_TAPIA_JOSE_ALEJANDRO.pdfTexto completoapplication/pdf574283https://tesis.pucp.edu.pe/bitstreams/c33a3cf4-b9ab-487a-94a4-ac4cb69b49b8/download5491cfa034a95a82a3e332394e50853eMD51trueAnonymousREADFLOREZ_TAPIA_JOSE_ALEJANDRO_T.pdfFLOREZ_TAPIA_JOSE_ALEJANDRO_T.pdfReporte de originalidadapplication/pdf3735665https://tesis.pucp.edu.pe/bitstreams/47b16e20-a609-47a5-b9b0-edffd0642db0/download34207e81ae6f7bea11eb815f11bbc3bcMD52falseAdministratorREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/6858df29-bfe8-46d8-8a8f-b8b95aa3bf96/downloadbb9bdc0b3349e4284e09149f943790b4MD53falseAnonymousREADTEXTFLOREZ_TAPIA_JOSE_ALEJANDRO.pdf.txtFLOREZ_TAPIA_JOSE_ALEJANDRO.pdf.txtExtracted texttext/plain57912https://tesis.pucp.edu.pe/bitstreams/3268e257-93ae-41a5-b167-e3c428c2a961/download29aac5cc1fdcb1a0933e5592a7d6e357MD54falseAnonymousREADFLOREZ_TAPIA_JOSE_ALEJANDRO_T.pdf.txtFLOREZ_TAPIA_JOSE_ALEJANDRO_T.pdf.txtExtracted texttext/plain2515https://tesis.pucp.edu.pe/bitstreams/fd67c4b2-e514-40f4-9139-b93012d95348/download7f38d266126f49e1c22305b841344d92MD56falseAdministratorREADTHUMBNAILFLOREZ_TAPIA_JOSE_ALEJANDRO.pdf.jpgFLOREZ_TAPIA_JOSE_ALEJANDRO.pdf.jpgGenerated Thumbnailimage/jpeg10458https://tesis.pucp.edu.pe/bitstreams/065e0a8e-bd8f-481b-bbeb-c5a27ab016cb/download9d6bb14b72a77d8a1fdd3984b4235e33MD55falseAnonymousREADFLOREZ_TAPIA_JOSE_ALEJANDRO_T.pdf.jpgFLOREZ_TAPIA_JOSE_ALEJANDRO_T.pdf.jpgGenerated Thumbnailimage/jpeg6566https://tesis.pucp.edu.pe/bitstreams/3d29ba27-3fde-4ba9-9aa3-4e3a399c7404/download792a4ac1f4436bb3012ad239ed1a768dMD57falseAdministratorREAD20.500.12404/32897oai:tesis.pucp.edu.pe:20.500.12404/328972026-01-14 09:31:22.767http://creativecommons.org/licenses/by-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0IG93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLCB0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZyB0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sIGluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlIHN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yIHB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZSB0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQgdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uIGFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LCB5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZSBjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCBzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkIHdpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRCBCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUgRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSCBDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZSBzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMgbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.416413
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).