Síntesis de voz para lenguas de pocos recursos: El caso Shipibo- Konibo
Descripción del Articulo
Actualmente, existe consenso entre numerosos lingüistas en que, de las más de 7000 lenguas conocidas en el mundo, muchas están en peligro de extinción en distintos grados. Por ello, su documentación y revitalización son tareas esenciales, no solo para conservarlas, sino también para preservar formas...
| Autor: | |
|---|---|
| Formato: | tesis de maestría |
| Fecha de Publicación: | 2024 |
| Institución: | Pontificia Universidad Católica del Perú |
| Repositorio: | PUCP-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/30275 |
| Enlace del recurso: | http://hdl.handle.net/20.500.12404/30275 |
| Nivel de acceso: | acceso abierto |
| Materia: | Síntesis del habla Shipibo-Conibo Lenguas indígenas--Perú https://purl.org/pe-repo/ocde/ford#1.02.00 |
| Sumario: | Actualmente, existe consenso entre numerosos lingüistas en que, de las más de 7000 lenguas conocidas en el mundo, muchas están en peligro de extinción en distintos grados. Por ello, su documentación y revitalización son tareas esenciales, no solo para conservarlas, sino también para preservar formas únicas de comunicación y valiosas maneras de comprender el mundo. Esta investigación busca ser un paso inicial en la revitalización de lenguas amenazadas, enfocándose en el Shipibo-Konibo. Esta lengua, hablada principalmente en la Amazonía peruana, enfrenta desafíos como la escasez de datos, la coexistencia de diferentes tradiciones ortográficas y una documentación limitada, lo que lo clasifica como una lengua de pocos recursos. En respuesta a estos retos, este artículo presenta el desarrollo de un modelo de síntesis de texto a voz (TTS) para el Shipibo-Konibo basado en la arquitectura Tacotron 2 y HiFi-GAN como vocoder, superando diversas dificultades técnicas para lograr una solución capaz de generar audio de alta calidad. Se requirió la recopilación de un corpus que incluye más de 4 horas de grabaciones y 3,025 frases escritas, obtenidas de textos educativos y traducciones literarias. Las grabaciones fueron realizadas con la ayuda de un hablante nativo, asegurando un alto estándar de calidad para el entrenamiento del modelo. Los resultados fueron prometedores, alcanzando una tasa de inteligibilidad del 88.56% y una puntuación media de opinión (MOS) de 4.01. Estas métricas llegaron incluso a superar la calidad percibida de la voz natural en las pruebas realizadas, lo que demuestra el potencial del modelo para adaptarse a otros idiomas de la familia pano u otras lenguas amazónicas. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).