Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda

Descripción del Articulo

El conjunto de variaciones en la pronunciación (acentos, velocidad, entonación) que son consecuencia de las variaciones en género, edad y localidad de los locutores, afectan en gran medida en la precisión de un conversor de voz a texto. Es por ello que, en esta tesis se describe la construcción de u...

Descripción completa

Detalles Bibliográficos
Autores: Aimituma Suyo, Franklin, Churata Urtado, Ruth Mery
Formato: tesis de grado
Fecha de Publicación:2019
Institución:Universidad Nacional de San Antonio Abad del Cusco
Repositorio:UNSAAC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsaac.edu.pe:20.500.12918/4321
Enlace del recurso:http://hdl.handle.net/20.500.12918/4321
Nivel de acceso:acceso abierto
Materia:Modelo de lenguaje
Redes neuronales profundas
Decodificador Kaldi
Corpus de voz
Sistema ASR
http://purl.org/pe-repo/ocde/ford#2.02.04
id RUNS_e0328d05db589699e32d2528b1c864ba
oai_identifier_str oai:repositorio.unsaac.edu.pe:20.500.12918/4321
network_acronym_str RUNS
network_name_str UNSAAC-Institucional
repository_id_str
spelling Carbajal Luna, Julio CesarAimituma Suyo, FranklinChurata Urtado, Ruth Mery2019-08-07T13:10:10Z2019-08-07T13:10:10Z2019253T20190384IN/010/2019http://hdl.handle.net/20.500.12918/4321El conjunto de variaciones en la pronunciación (acentos, velocidad, entonación) que son consecuencia de las variaciones en género, edad y localidad de los locutores, afectan en gran medida en la precisión de un conversor de voz a texto. Es por ello que, en esta tesis se describe la construcción de un conversor de voz a texto de habla continua con un gran vocabulario (LVCSR-Large Vocabulary continuos Speech Recognition) e independiente del locutor, para el idioma Quechua en su variación dialéctica Cusco-Qollao, basado en la herramienta Kaldi y la arquitectura de una Red Neuronal Profunda como clasificador de fonemas dentro del modelo acústico, para lo cual fue necesario la construcción del corpus de voz balanceada en género, a partir de grabaciones hechas a frases inmersas en distintos fuentes textuales, llegando a obtener un total de 18 horas de audio en Quechua. De igual forma, se realizó la construcción de los distintos recursos de voz (Diccionario fonético, fonemas y grandes colecciones de texto) necesarios para la construcción del modelo acústico y de lenguaje. Una vez construido todos los recursos de voz, se continua con el proceso de entrenamiento del modelo acústico basado en un modelo de Red Neuronal Profunda y el modelo Oculto de Markov (Deep Neural Network (DNN)-Hidden Markov Model (HMM)), del mismo modo, el modelo de lenguaje es basado en un modelo de 3-grams. Finalmente, una vez concluido el proceso de entrenamiento, se realiza el proceso de prueba o reconocimiento basado en un conjunto de experimentos con el fin de obtener valores óptimos para los parámetros de la arquitectura DNN, es así que se llegó a obtener una precisión de 59.20%, con la tasa de aprendizaje igual a 0.002, numero de nodos internos igual a 512 y el número de capas internas igual a 3 como parte de los parámetros de la arquitectura DNN dentro del modelo acústico, lo cual es bastante aceptable en comparación a investigaciones con una cantidad de recursos de voz similares.Tesisapplication/pdfspaUniversidad Nacional de San Antonio Abad del CuscoPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Universidad Nacional de San Antonio Abad del CuscoRepositorio Institucional - UNSAACreponame:UNSAAC-Institucionalinstname:Universidad Nacional de San Antonio Abad del Cuscoinstacron:UNSAACModelo de lenguajeRedes neuronales profundasDecodificador KaldiCorpus de vozSistema ASRhttp://purl.org/pe-repo/ocde/ford#2.02.04Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profundainfo:eu-repo/semantics/bachelorThesisSUNEDUIngeniero Informático y de SistemasUniversidad Nacional de San Antonio Abad del Cusco. Facultad de Ingeniería Eléctrica, Electrónica, Informática y MecánicaTítulo profesionalIngeniería Informática y de Sistemas7307730673195945https://orcid.org/0000-0003-2629-250X23903765http://purl.org/pe-repo/renati/type#tesishttp://purl.org/pe-repo/renati/nivel#tituloProfesional612296ORIGINAL253T20190384_TC.pdfapplication/pdf948047http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/4321/1/253T20190384_TC.pdfdf36cc8e91711b8e4227cae7ef709d6aMD51TEXT253T20190384_TC.pdf.txt253T20190384_TC.pdf.txtExtracted texttext/plain167541http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/4321/2/253T20190384_TC.pdf.txt24944f5150e28f0dc5a0d0de12180162MD5220.500.12918/4321oai:repositorio.unsaac.edu.pe:20.500.12918/43212022-05-02 18:25:31.941DSpace de la UNSAACsoporte.repositorio@unsaac.edu.pe
dc.title.es_PE.fl_str_mv Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda
title Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda
spellingShingle Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda
Aimituma Suyo, Franklin
Modelo de lenguaje
Redes neuronales profundas
Decodificador Kaldi
Corpus de voz
Sistema ASR
http://purl.org/pe-repo/ocde/ford#2.02.04
title_short Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda
title_full Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda
title_fullStr Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda
title_full_unstemmed Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda
title_sort Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda
author Aimituma Suyo, Franklin
author_facet Aimituma Suyo, Franklin
Churata Urtado, Ruth Mery
author_role author
author2 Churata Urtado, Ruth Mery
author2_role author
dc.contributor.advisor.fl_str_mv Carbajal Luna, Julio Cesar
dc.contributor.author.fl_str_mv Aimituma Suyo, Franklin
Churata Urtado, Ruth Mery
dc.subject.es_PE.fl_str_mv Modelo de lenguaje
Redes neuronales profundas
Decodificador Kaldi
Corpus de voz
Sistema ASR
topic Modelo de lenguaje
Redes neuronales profundas
Decodificador Kaldi
Corpus de voz
Sistema ASR
http://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.ocde.none.fl_str_mv http://purl.org/pe-repo/ocde/ford#2.02.04
description El conjunto de variaciones en la pronunciación (acentos, velocidad, entonación) que son consecuencia de las variaciones en género, edad y localidad de los locutores, afectan en gran medida en la precisión de un conversor de voz a texto. Es por ello que, en esta tesis se describe la construcción de un conversor de voz a texto de habla continua con un gran vocabulario (LVCSR-Large Vocabulary continuos Speech Recognition) e independiente del locutor, para el idioma Quechua en su variación dialéctica Cusco-Qollao, basado en la herramienta Kaldi y la arquitectura de una Red Neuronal Profunda como clasificador de fonemas dentro del modelo acústico, para lo cual fue necesario la construcción del corpus de voz balanceada en género, a partir de grabaciones hechas a frases inmersas en distintos fuentes textuales, llegando a obtener un total de 18 horas de audio en Quechua. De igual forma, se realizó la construcción de los distintos recursos de voz (Diccionario fonético, fonemas y grandes colecciones de texto) necesarios para la construcción del modelo acústico y de lenguaje. Una vez construido todos los recursos de voz, se continua con el proceso de entrenamiento del modelo acústico basado en un modelo de Red Neuronal Profunda y el modelo Oculto de Markov (Deep Neural Network (DNN)-Hidden Markov Model (HMM)), del mismo modo, el modelo de lenguaje es basado en un modelo de 3-grams. Finalmente, una vez concluido el proceso de entrenamiento, se realiza el proceso de prueba o reconocimiento basado en un conjunto de experimentos con el fin de obtener valores óptimos para los parámetros de la arquitectura DNN, es así que se llegó a obtener una precisión de 59.20%, con la tasa de aprendizaje igual a 0.002, numero de nodos internos igual a 512 y el número de capas internas igual a 3 como parte de los parámetros de la arquitectura DNN dentro del modelo acústico, lo cual es bastante aceptable en comparación a investigaciones con una cantidad de recursos de voz similares.
publishDate 2019
dc.date.accessioned.none.fl_str_mv 2019-08-07T13:10:10Z
dc.date.available.none.fl_str_mv 2019-08-07T13:10:10Z
dc.date.issued.fl_str_mv 2019
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.other.none.fl_str_mv 253T20190384
IN/010/2019
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12918/4321
identifier_str_mv 253T20190384
IN/010/2019
url http://hdl.handle.net/20.500.12918/4321
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.en_US.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.format.en_US.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de San Antonio Abad del Cusco
dc.publisher.country.none.fl_str_mv PE
dc.source.es_PE.fl_str_mv Universidad Nacional de San Antonio Abad del Cusco
Repositorio Institucional - UNSAAC
dc.source.none.fl_str_mv reponame:UNSAAC-Institucional
instname:Universidad Nacional de San Antonio Abad del Cusco
instacron:UNSAAC
instname_str Universidad Nacional de San Antonio Abad del Cusco
instacron_str UNSAAC
institution UNSAAC
reponame_str UNSAAC-Institucional
collection UNSAAC-Institucional
bitstream.url.fl_str_mv http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/4321/1/253T20190384_TC.pdf
http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/4321/2/253T20190384_TC.pdf.txt
bitstream.checksum.fl_str_mv df36cc8e91711b8e4227cae7ef709d6a
24944f5150e28f0dc5a0d0de12180162
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv DSpace de la UNSAAC
repository.mail.fl_str_mv soporte.repositorio@unsaac.edu.pe
_version_ 1742881452054282240
score 13.936249
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).