Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR

Descripción del Articulo

Este trabajo de investigación tiene como objetivo desarrollar un modelo Text-to-Speech (TTS) para la lengua Awajún, una de las 48 lenguas originarias del Perú, con el propósito de contribuir a su preservación mediante el uso de un modelo de síntesis de voz basado en aprendizaje profundo. Para el des...

Descripción completa

Detalles Bibliográficos
Autor: Mallqui Merma, Rodrigo Roel
Formato: tesis de maestría
Fecha de Publicación:2025
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/32901
Enlace del recurso:http://hdl.handle.net/20.500.12404/32901
Nivel de acceso:acceso abierto
Materia:Aprendizaje profundo (Aprendizaje automático)
Aguaruna
Lenguas indígenas--Perú--Amazonía, Región
Procesamieto en lenguaje natural (Computación)
https://purl.org/pe-repo/ocde/ford#1.02.02
Descripción
Sumario:Este trabajo de investigación tiene como objetivo desarrollar un modelo Text-to-Speech (TTS) para la lengua Awajún, una de las 48 lenguas originarias del Perú, con el propósito de contribuir a su preservación mediante el uso de un modelo de síntesis de voz basado en aprendizaje profundo. Para el desarrollo de este modelo se utilizaron las arquitecturas Tacotron 2 y HiFi-GAN, ampliamente utilizadas en la generación de voz de calidad. El proceso metodológico incluyó la recolección, limpieza y alineación de un conjunto de datos compuesto por audios y textos en lengua Awajún, obtenidos de las plataformas Scripture Earth y Ojo Público. Posteriormente, los datos fueron utilizados para entrenar a diferentes modelos TTS, generando muestras de audio a partir de texto escrito. La evaluación de los modelos TTS se realizó mediante la métrica CER (Character Error Rate), utilizando un modelo de Automatic Speech Recognition (ASR). Los resultados permitieron identificar el modelo con mejor desempeño que logró generar el habla en lengua Awajún, demostrando el potencial de las redes neuronales para el procesamiento de lenguas de bajos recursos. Finalmente, se utilizó la métrica MOS, en la que hablantes nativos calificaron la naturalidad de los audios generados del mejor modelo identificado. Este trabajo constituye un aporte significativo a la preservación de la lengua Awajún, y abre la posibilidad de futuras investigaciones orientadas a la creación de herramientas tecnológicas para la lengua Awajún y otras lenguas originarias del Perú.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).