Análisis de Sentimiento para lenguajes de bajos recursos, Dominio: Shipibo-Konibo
Descripción del Articulo
Con el objetivo de apoyar a comunidades con bajos recursos digitales en su integración a la sociedad, se desarrolló un modelo de análisis de sentimiento para lenguas indígenas, permitiendo la implementación de tecnologías como chatbots y asistentes virtuales que puedan operar en su lengua materna. E...
| Autor: | |
|---|---|
| Formato: | tesis de maestría |
| Fecha de Publicación: | 2025 |
| Institución: | Pontificia Universidad Católica del Perú |
| Repositorio: | PUCP-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/32897 |
| Enlace del recurso: | http://hdl.handle.net/20.500.12404/32897 |
| Nivel de acceso: | acceso abierto |
| Materia: | Procesamiento en lenguaje natural (Computación) Minería de datos Inteligencia artificial Brecha digital Lenguas indígenas--Perú--(Shipibo-Conibo) https://purl.org/pe-repo/ocde/ford#1.02.02 |
| Sumario: | Con el objetivo de apoyar a comunidades con bajos recursos digitales en su integración a la sociedad, se desarrolló un modelo de análisis de sentimiento para lenguas indígenas, permitiendo la implementación de tecnologías como chatbots y asistentes virtuales que puedan operar en su lengua materna. Esta propuesta busca no solo facilitar un mayor acceso a servicios esenciales en áreas como educación, salud y gobierno, sino también promover la preservación cultural y lingüística de comunidades históricamente marginadas. La incorporación de herramientas de este tipo representa una estrategia para reducir la brecha digital y garantizar un acceso más equitativo a los beneficios de la transformación tecnológica. Para el idioma Shipibo-Konibo, se utilizaron diversas técnicas de aumento de datos basadas en errores controlados, incluyendo alteraciones aleatorias, proximidad de teclado, ambigüedad fonema-grafema y similitud silábica. Estas técnicas contribuyeron significativamente a incrementar la diversidad y representatividad del corpus, permitiendo que el modelo entrenado reflejara de manera más realista la variabilidad natural del lenguaje. Asimismo, se evaluaron modelos de embeddings multilingües como XLM-Roberta, LaBSE y SIMCSE, seleccionando finalmente el más adecuado por su capacidad de generalización y desempeño en escenarios multilingües. Los experimentos realizados lograron superar el desafío de clasificar oraciones en categorías positivas, negativas y neutras, incluso en contextos de datos limitados. Este avance constituye un paso importante hacia la inclusión tecnológica de comunidades indígenas, ofreciendo herramientas adaptadas a sus necesidades lingüísticas y fomentando un ecosistema digital más diverso e inclusivo. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).