Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda
Descripción del Articulo
El conjunto de variaciones en la pronunciación (acentos, velocidad, entonación) que son consecuencia de las variaciones en género, edad y localidad de los locutores, afectan en gran medida en la precisión de un conversor de voz a texto. Es por ello que, en esta tesis se describe la construcción de u...
| Autores: | , |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2019 |
| Institución: | Universidad Nacional de San Antonio Abad del Cusco |
| Repositorio: | UNSAAC-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.unsaac.edu.pe:20.500.12918/4321 |
| Enlace del recurso: | http://hdl.handle.net/20.500.12918/4321 |
| Nivel de acceso: | acceso abierto |
| Materia: | Modelo de lenguaje Redes neuronales profundas Decodificador Kaldi Corpus de voz Sistema ASR http://purl.org/pe-repo/ocde/ford#2.02.04 |
| id |
RUNS_e0328d05db589699e32d2528b1c864ba |
|---|---|
| oai_identifier_str |
oai:repositorio.unsaac.edu.pe:20.500.12918/4321 |
| network_acronym_str |
RUNS |
| network_name_str |
UNSAAC-Institucional |
| repository_id_str |
|
| spelling |
Carbajal Luna, Julio CesarAimituma Suyo, FranklinChurata Urtado, Ruth Mery2019-08-07T13:10:10Z2019-08-07T13:10:10Z2019253T20190384IN/010/2019http://hdl.handle.net/20.500.12918/4321El conjunto de variaciones en la pronunciación (acentos, velocidad, entonación) que son consecuencia de las variaciones en género, edad y localidad de los locutores, afectan en gran medida en la precisión de un conversor de voz a texto. Es por ello que, en esta tesis se describe la construcción de un conversor de voz a texto de habla continua con un gran vocabulario (LVCSR-Large Vocabulary continuos Speech Recognition) e independiente del locutor, para el idioma Quechua en su variación dialéctica Cusco-Qollao, basado en la herramienta Kaldi y la arquitectura de una Red Neuronal Profunda como clasificador de fonemas dentro del modelo acústico, para lo cual fue necesario la construcción del corpus de voz balanceada en género, a partir de grabaciones hechas a frases inmersas en distintos fuentes textuales, llegando a obtener un total de 18 horas de audio en Quechua. De igual forma, se realizó la construcción de los distintos recursos de voz (Diccionario fonético, fonemas y grandes colecciones de texto) necesarios para la construcción del modelo acústico y de lenguaje. Una vez construido todos los recursos de voz, se continua con el proceso de entrenamiento del modelo acústico basado en un modelo de Red Neuronal Profunda y el modelo Oculto de Markov (Deep Neural Network (DNN)-Hidden Markov Model (HMM)), del mismo modo, el modelo de lenguaje es basado en un modelo de 3-grams. Finalmente, una vez concluido el proceso de entrenamiento, se realiza el proceso de prueba o reconocimiento basado en un conjunto de experimentos con el fin de obtener valores óptimos para los parámetros de la arquitectura DNN, es así que se llegó a obtener una precisión de 59.20%, con la tasa de aprendizaje igual a 0.002, numero de nodos internos igual a 512 y el número de capas internas igual a 3 como parte de los parámetros de la arquitectura DNN dentro del modelo acústico, lo cual es bastante aceptable en comparación a investigaciones con una cantidad de recursos de voz similares.Tesisapplication/pdfspaUniversidad Nacional de San Antonio Abad del CuscoPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Universidad Nacional de San Antonio Abad del CuscoRepositorio Institucional - UNSAACreponame:UNSAAC-Institucionalinstname:Universidad Nacional de San Antonio Abad del Cuscoinstacron:UNSAACModelo de lenguajeRedes neuronales profundasDecodificador KaldiCorpus de vozSistema ASRhttp://purl.org/pe-repo/ocde/ford#2.02.04Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profundainfo:eu-repo/semantics/bachelorThesisSUNEDUIngeniero Informático y de SistemasUniversidad Nacional de San Antonio Abad del Cusco. Facultad de Ingeniería Eléctrica, Electrónica, Informática y MecánicaTítulo profesionalIngeniería Informática y de Sistemas7307730673195945https://orcid.org/0000-0003-2629-250X23903765http://purl.org/pe-repo/renati/type#tesishttp://purl.org/pe-repo/renati/nivel#tituloProfesional612296ORIGINAL253T20190384_TC.pdfapplication/pdf948047http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/4321/1/253T20190384_TC.pdfdf36cc8e91711b8e4227cae7ef709d6aMD51TEXT253T20190384_TC.pdf.txt253T20190384_TC.pdf.txtExtracted texttext/plain167541http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/4321/2/253T20190384_TC.pdf.txt24944f5150e28f0dc5a0d0de12180162MD5220.500.12918/4321oai:repositorio.unsaac.edu.pe:20.500.12918/43212022-05-02 18:25:31.941DSpace de la UNSAACsoporte.repositorio@unsaac.edu.pe |
| dc.title.es_PE.fl_str_mv |
Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda |
| title |
Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda |
| spellingShingle |
Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda Aimituma Suyo, Franklin Modelo de lenguaje Redes neuronales profundas Decodificador Kaldi Corpus de voz Sistema ASR http://purl.org/pe-repo/ocde/ford#2.02.04 |
| title_short |
Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda |
| title_full |
Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda |
| title_fullStr |
Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda |
| title_full_unstemmed |
Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda |
| title_sort |
Conversor de voz a texto para el idioma quechua usando la herramienta de reconocimiento de voz KALDI y una red neuronal profunda |
| author |
Aimituma Suyo, Franklin |
| author_facet |
Aimituma Suyo, Franklin Churata Urtado, Ruth Mery |
| author_role |
author |
| author2 |
Churata Urtado, Ruth Mery |
| author2_role |
author |
| dc.contributor.advisor.fl_str_mv |
Carbajal Luna, Julio Cesar |
| dc.contributor.author.fl_str_mv |
Aimituma Suyo, Franklin Churata Urtado, Ruth Mery |
| dc.subject.es_PE.fl_str_mv |
Modelo de lenguaje Redes neuronales profundas Decodificador Kaldi Corpus de voz Sistema ASR |
| topic |
Modelo de lenguaje Redes neuronales profundas Decodificador Kaldi Corpus de voz Sistema ASR http://purl.org/pe-repo/ocde/ford#2.02.04 |
| dc.subject.ocde.none.fl_str_mv |
http://purl.org/pe-repo/ocde/ford#2.02.04 |
| description |
El conjunto de variaciones en la pronunciación (acentos, velocidad, entonación) que son consecuencia de las variaciones en género, edad y localidad de los locutores, afectan en gran medida en la precisión de un conversor de voz a texto. Es por ello que, en esta tesis se describe la construcción de un conversor de voz a texto de habla continua con un gran vocabulario (LVCSR-Large Vocabulary continuos Speech Recognition) e independiente del locutor, para el idioma Quechua en su variación dialéctica Cusco-Qollao, basado en la herramienta Kaldi y la arquitectura de una Red Neuronal Profunda como clasificador de fonemas dentro del modelo acústico, para lo cual fue necesario la construcción del corpus de voz balanceada en género, a partir de grabaciones hechas a frases inmersas en distintos fuentes textuales, llegando a obtener un total de 18 horas de audio en Quechua. De igual forma, se realizó la construcción de los distintos recursos de voz (Diccionario fonético, fonemas y grandes colecciones de texto) necesarios para la construcción del modelo acústico y de lenguaje. Una vez construido todos los recursos de voz, se continua con el proceso de entrenamiento del modelo acústico basado en un modelo de Red Neuronal Profunda y el modelo Oculto de Markov (Deep Neural Network (DNN)-Hidden Markov Model (HMM)), del mismo modo, el modelo de lenguaje es basado en un modelo de 3-grams. Finalmente, una vez concluido el proceso de entrenamiento, se realiza el proceso de prueba o reconocimiento basado en un conjunto de experimentos con el fin de obtener valores óptimos para los parámetros de la arquitectura DNN, es así que se llegó a obtener una precisión de 59.20%, con la tasa de aprendizaje igual a 0.002, numero de nodos internos igual a 512 y el número de capas internas igual a 3 como parte de los parámetros de la arquitectura DNN dentro del modelo acústico, lo cual es bastante aceptable en comparación a investigaciones con una cantidad de recursos de voz similares. |
| publishDate |
2019 |
| dc.date.accessioned.none.fl_str_mv |
2019-08-07T13:10:10Z |
| dc.date.available.none.fl_str_mv |
2019-08-07T13:10:10Z |
| dc.date.issued.fl_str_mv |
2019 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| format |
bachelorThesis |
| dc.identifier.other.none.fl_str_mv |
253T20190384 IN/010/2019 |
| dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12918/4321 |
| identifier_str_mv |
253T20190384 IN/010/2019 |
| url |
http://hdl.handle.net/20.500.12918/4321 |
| dc.language.iso.es_PE.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.en_US.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
| dc.format.en_US.fl_str_mv |
application/pdf |
| dc.publisher.es_PE.fl_str_mv |
Universidad Nacional de San Antonio Abad del Cusco |
| dc.publisher.country.none.fl_str_mv |
PE |
| dc.source.es_PE.fl_str_mv |
Universidad Nacional de San Antonio Abad del Cusco Repositorio Institucional - UNSAAC |
| dc.source.none.fl_str_mv |
reponame:UNSAAC-Institucional instname:Universidad Nacional de San Antonio Abad del Cusco instacron:UNSAAC |
| instname_str |
Universidad Nacional de San Antonio Abad del Cusco |
| instacron_str |
UNSAAC |
| institution |
UNSAAC |
| reponame_str |
UNSAAC-Institucional |
| collection |
UNSAAC-Institucional |
| bitstream.url.fl_str_mv |
http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/4321/1/253T20190384_TC.pdf http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/4321/2/253T20190384_TC.pdf.txt |
| bitstream.checksum.fl_str_mv |
df36cc8e91711b8e4227cae7ef709d6a 24944f5150e28f0dc5a0d0de12180162 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
DSpace de la UNSAAC |
| repository.mail.fl_str_mv |
soporte.repositorio@unsaac.edu.pe |
| _version_ |
1742881452054282240 |
| score |
13.936249 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).