Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda
Descripción del Articulo
El conjunto de variaciones en la pronunciación (acentos, velocidad, entonación) que son consecuencia de las variaciones en género, edad y localidad de los locutores, afectan en gran medida en la precisión de un conversor de voz a texto. Es por ello que, en esta tesis se describe la construcción de u...
Autores: | , |
---|---|
Formato: | tesis de grado |
Fecha de Publicación: | 2019 |
Institución: | Universidad Nacional de San Antonio Abad del Cusco |
Repositorio: | UNSAAC-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.unsaac.edu.pe:20.500.12918/4321 |
Enlace del recurso: | http://hdl.handle.net/20.500.12918/4321 |
Nivel de acceso: | acceso abierto |
Materia: | Modelo de lenguaje Redes neuronales profundas Decodificador Kaldi Corpus de voz Sistema ASR http://purl.org/pe-repo/ocde/ford#2.02.04 |
Sumario: | El conjunto de variaciones en la pronunciación (acentos, velocidad, entonación) que son consecuencia de las variaciones en género, edad y localidad de los locutores, afectan en gran medida en la precisión de un conversor de voz a texto. Es por ello que, en esta tesis se describe la construcción de un conversor de voz a texto de habla continua con un gran vocabulario (LVCSR-Large Vocabulary continuos Speech Recognition) e independiente del locutor, para el idioma Quechua en su variación dialéctica Cusco-Qollao, basado en la herramienta Kaldi y la arquitectura de una Red Neuronal Profunda como clasificador de fonemas dentro del modelo acústico, para lo cual fue necesario la construcción del corpus de voz balanceada en género, a partir de grabaciones hechas a frases inmersas en distintos fuentes textuales, llegando a obtener un total de 18 horas de audio en Quechua. De igual forma, se realizó la construcción de los distintos recursos de voz (Diccionario fonético, fonemas y grandes colecciones de texto) necesarios para la construcción del modelo acústico y de lenguaje. Una vez construido todos los recursos de voz, se continua con el proceso de entrenamiento del modelo acústico basado en un modelo de Red Neuronal Profunda y el modelo Oculto de Markov (Deep Neural Network (DNN)-Hidden Markov Model (HMM)), del mismo modo, el modelo de lenguaje es basado en un modelo de 3-grams. Finalmente, una vez concluido el proceso de entrenamiento, se realiza el proceso de prueba o reconocimiento basado en un conjunto de experimentos con el fin de obtener valores óptimos para los parámetros de la arquitectura DNN, es así que se llegó a obtener una precisión de 59.20%, con la tasa de aprendizaje igual a 0.002, numero de nodos internos igual a 512 y el número de capas internas igual a 3 como parte de los parámetros de la arquitectura DNN dentro del modelo acústico, lo cual es bastante aceptable en comparación a investigaciones con una cantidad de recursos de voz similares. |
---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).