Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS
Descripción del Articulo
El reconocimiento de voz se ha convertido en una funcionalidad obligatoria para diversos dispositivos y aplicaciones. Sin embargo, aún no se ha desarrollado la implementación más óptima que genere los mejores resultados. Por esta razón, en esta tesis se compararon los resultados de dos modelos end t...
Autor: | |
---|---|
Formato: | tesis de grado |
Fecha de Publicación: | 2021 |
Institución: | Universidad Nacional de San Agustín |
Repositorio: | UNSA-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.unsa.edu.pe:20.500.12773/14085 |
Enlace del recurso: | http://hdl.handle.net/20.500.12773/14085 |
Nivel de acceso: | acceso abierto |
Materia: | Reconocimiento automático de voz Modelos end to end Deep learning https://purl.org/pe-repo/ocde/ford#1.02.01 |
id |
UNSA_42110478c5c5d0338b8cacb12d3e0f64 |
---|---|
oai_identifier_str |
oai:repositorio.unsa.edu.pe:20.500.12773/14085 |
network_acronym_str |
UNSA |
network_name_str |
UNSA-Institucional |
repository_id_str |
4847 |
dc.title.es_PE.fl_str_mv |
Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS |
title |
Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS |
spellingShingle |
Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS Escalante Calcina, Judith Reconocimiento automático de voz Modelos end to end Deep learning https://purl.org/pe-repo/ocde/ford#1.02.01 |
title_short |
Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS |
title_full |
Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS |
title_fullStr |
Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS |
title_full_unstemmed |
Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS |
title_sort |
Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS |
author |
Escalante Calcina, Judith |
author_facet |
Escalante Calcina, Judith |
author_role |
author |
dc.contributor.advisor.fl_str_mv |
Ramos Lovón, Wilber Roberto |
dc.contributor.author.fl_str_mv |
Escalante Calcina, Judith |
dc.subject.es_PE.fl_str_mv |
Reconocimiento automático de voz Modelos end to end Deep learning |
topic |
Reconocimiento automático de voz Modelos end to end Deep learning https://purl.org/pe-repo/ocde/ford#1.02.01 |
dc.subject.ocde.es_PE.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.02.01 |
description |
El reconocimiento de voz se ha convertido en una funcionalidad obligatoria para diversos dispositivos y aplicaciones. Sin embargo, aún no se ha desarrollado la implementación más óptima que genere los mejores resultados. Por esta razón, en esta tesis se compararon los resultados de dos modelos end to end (E2E, por sus siglas en inglés) de dos pasos, en base a la latencia y usando la tasa de error por palabra (WER, por sus siglas en inglés). El primer modelo estuvo compuesto por una red neuronal recurrente transductora (RNN-T, por sus siglas en inglés) y una red escuchar, atender y deletrear (LAS, por sus siglas en inglés) y el segundo modelo se formó de una red de memoria de corto y largo plazo (LSTM, por sus siglas en inglés) con algunas alteraciones y una red LAS. Se empleó un enfoque comparativo, donde primero se replicó la implementación del modelo E2E de dos pasos integrado por una RNN-T y una red LAS; luego, se alteró la arquitectura del primer modelo para generar el segundo modelo E2E de dos pasos formado por una LSTM y una red LAS; y finalmente se realizaron experimentos para confrontar sus resultados en términos de latencia y usando el sistema WER. Los resultados de los experimentos basados en los modelos E2E de dos pasos muestran una tasa de error inferior que la producida por modelos convencionales (LAS, LSTM, RNN-T). Por otro lado, la latencia generada por el modelo LSTM - LAS es menor que la producida por el modelo RNN-T - LAS, señalando de esta forma que las modificaciones realizadas para elaborar el segundo modelo fueron productivas. Por último, la evaluación hecha para medir el rendimiento expuso un buen desempeño, pero también revela que ambos modelos E2E de dos pasos tienen una alta tasa de pérdida. Las comparaciones entre modelos son importantes, ya que contribuyen a la optimización en los resultados y además pueden motivar la generación de nuevas propuestas, arquitecturas e incluso modelos E2E. |
publishDate |
2021 |
dc.date.accessioned.none.fl_str_mv |
2022-05-10T22:52:06Z |
dc.date.available.none.fl_str_mv |
2022-05-10T22:52:06Z |
dc.date.issued.fl_str_mv |
2021 |
dc.type.es_PE.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12773/14085 |
url |
http://hdl.handle.net/20.500.12773/14085 |
dc.language.iso.es_PE.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.es_PE.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.format.es_PE.fl_str_mv |
application/pdf |
dc.publisher.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa |
dc.publisher.country.es_PE.fl_str_mv |
PE |
dc.source.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa Repositorio Institucional - UNSA |
dc.source.none.fl_str_mv |
reponame:UNSA-Institucional instname:Universidad Nacional de San Agustín instacron:UNSA |
instname_str |
Universidad Nacional de San Agustín |
instacron_str |
UNSA |
institution |
UNSA |
reponame_str |
UNSA-Institucional |
collection |
UNSA-Institucional |
bitstream.url.fl_str_mv |
https://repositorio.unsa.edu.pe/bitstreams/7e0e7f25-5da9-47af-841f-1fd9cbad08f6/download https://repositorio.unsa.edu.pe/bitstreams/951312a7-7702-4ebf-997e-fdfa5e99c593/download https://repositorio.unsa.edu.pe/bitstreams/fd5c3025-29db-4cac-8ecd-e44b2120ccc7/download |
bitstream.checksum.fl_str_mv |
acc6e645c22dae0e28e42a3ef7f4e8d9 c52066b9c50a8f86be96c82978636682 f2053155bf55aefdfb99e7e59b776739 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional UNSA |
repository.mail.fl_str_mv |
repositorio@unsa.edu.pe |
_version_ |
1828763128127553536 |
spelling |
Ramos Lovón, Wilber RobertoEscalante Calcina, Judith2022-05-10T22:52:06Z2022-05-10T22:52:06Z2021El reconocimiento de voz se ha convertido en una funcionalidad obligatoria para diversos dispositivos y aplicaciones. Sin embargo, aún no se ha desarrollado la implementación más óptima que genere los mejores resultados. Por esta razón, en esta tesis se compararon los resultados de dos modelos end to end (E2E, por sus siglas en inglés) de dos pasos, en base a la latencia y usando la tasa de error por palabra (WER, por sus siglas en inglés). El primer modelo estuvo compuesto por una red neuronal recurrente transductora (RNN-T, por sus siglas en inglés) y una red escuchar, atender y deletrear (LAS, por sus siglas en inglés) y el segundo modelo se formó de una red de memoria de corto y largo plazo (LSTM, por sus siglas en inglés) con algunas alteraciones y una red LAS. Se empleó un enfoque comparativo, donde primero se replicó la implementación del modelo E2E de dos pasos integrado por una RNN-T y una red LAS; luego, se alteró la arquitectura del primer modelo para generar el segundo modelo E2E de dos pasos formado por una LSTM y una red LAS; y finalmente se realizaron experimentos para confrontar sus resultados en términos de latencia y usando el sistema WER. Los resultados de los experimentos basados en los modelos E2E de dos pasos muestran una tasa de error inferior que la producida por modelos convencionales (LAS, LSTM, RNN-T). Por otro lado, la latencia generada por el modelo LSTM - LAS es menor que la producida por el modelo RNN-T - LAS, señalando de esta forma que las modificaciones realizadas para elaborar el segundo modelo fueron productivas. Por último, la evaluación hecha para medir el rendimiento expuso un buen desempeño, pero también revela que ambos modelos E2E de dos pasos tienen una alta tasa de pérdida. Las comparaciones entre modelos son importantes, ya que contribuyen a la optimización en los resultados y además pueden motivar la generación de nuevas propuestas, arquitecturas e incluso modelos E2E.application/pdfhttp://hdl.handle.net/20.500.12773/14085spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSAReconocimiento automático de vozModelos end to endDeep learninghttps://purl.org/pe-repo/ocde/ford#1.02.01Two - pass end-to-end: RNN-T-LAS VS. LSTM-LASinfo:eu-repo/semantics/bachelorThesisSUNEDU29525079https://orcid.org/0000-0003-0030-910771892791611016López del Álamo, Cristian JoséCuno Parari, Alvaro ErnestoRamos Lovón, Wilber Robertohttp://purl.org/pe-repo/renati/level#tituloProfesionalhttp://purl.org/pe-repo/renati/type#tesisCiencia de la ComputaciónUniversidad Nacional de San Agustín de Arequipa.Facultad de Ingeniería de Producción y ServiciosLicenciada en Ciencia de la ComputaciónORIGINALCCescaj.pdfCCescaj.pdfapplication/pdf11558040https://repositorio.unsa.edu.pe/bitstreams/7e0e7f25-5da9-47af-841f-1fd9cbad08f6/downloadacc6e645c22dae0e28e42a3ef7f4e8d9MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81327https://repositorio.unsa.edu.pe/bitstreams/951312a7-7702-4ebf-997e-fdfa5e99c593/downloadc52066b9c50a8f86be96c82978636682MD52TEXTCCescaj.pdf.txtCCescaj.pdf.txtExtracted texttext/plain87164https://repositorio.unsa.edu.pe/bitstreams/fd5c3025-29db-4cac-8ecd-e44b2120ccc7/downloadf2053155bf55aefdfb99e7e59b776739MD5320.500.12773/14085oai:repositorio.unsa.edu.pe:20.500.12773/140852022-12-13 00:37:05.141http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe77u/TGljZW5jaWEgZGUgVXNvCiAKRWwgUmVwb3NpdG9yaW8gSW5zdGl0dWNpb25hbCwgZGlmdW5kZSBtZWRpYW50ZSBsb3MgdHJhYmFqb3MgZGUgaW52ZXN0aWdhY2nDs24gcHJvZHVjaWRvcyBwb3IgbG9zIG1pZW1icm9zIGRlIGxhIHVuaXZlcnNpZGFkLiBFbCBjb250ZW5pZG8gZGUgbG9zIGRvY3VtZW50b3MgZGlnaXRhbGVzIGVzIGRlIGFjY2VzbyBhYmllcnRvIHBhcmEgdG9kYSBwZXJzb25hIGludGVyZXNhZGEuCgpTZSBhY2VwdGEgbGEgZGlmdXNpw7NuIHDDumJsaWNhIGRlIGxhIG9icmEsIHN1IGNvcGlhIHkgZGlzdHJpYnVjacOzbi4gUGFyYSBlc3RvIGVzIG5lY2VzYXJpbyBxdWUgc2UgY3VtcGxhIGNvbiBsYXMgc2lndWllbnRlcyBjb25kaWNpb25lczoKCkVsIG5lY2VzYXJpbyByZWNvbm9jaW1pZW50byBkZSBsYSBhdXRvcsOtYSBkZSBsYSBvYnJhLCBpZGVudGlmaWNhbmRvIG9wb3J0dW5hIHkgY29ycmVjdGFtZW50ZSBhIGxhIHBlcnNvbmEgcXVlIHBvc2VhIGxvcyBkZXJlY2hvcyBkZSBhdXRvci4KCk5vIGVzdMOhIHBlcm1pdGlkbyBlbCB1c28gaW5kZWJpZG8gZGVsIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gY29uIGZpbmVzIGRlIGx1Y3JvIG8gY3VhbHF1aWVyIHRpcG8gZGUgYWN0aXZpZGFkIHF1ZSBwcm9kdXpjYSBnYW5hbmNpYXMgYSBsYXMgcGVyc29uYXMgcXVlIGxvIGRpZnVuZGVuIHNpbiBlbCBjb25zZW50aW1pZW50byBkZWwgYXV0b3IgKGF1dG9yIGxlZ2FsKS4KCkxvcyBkZXJlY2hvcyBtb3JhbGVzIGRlbCBhdXRvciBubyBzb24gYWZlY3RhZG9zIHBvciBsYSBwcmVzZW50ZSBsaWNlbmNpYSBkZSB1c28uCgpEZXJlY2hvcyBkZSBhdXRvcgoKTGEgdW5pdmVyc2lkYWQgbm8gcG9zZWUgbG9zIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbC4gTG9zIGRlcmVjaG9zIGRlIGF1dG9yIHNlIGVuY3VlbnRyYW4gcHJvdGVnaWRvcyBwb3IgbGEgbGVnaXNsYWNpw7NuIHBlcnVhbmE6IExleSBzb2JyZSBlbCBEZXJlY2hvIGRlIEF1dG9yIHByb211bGdhZG8gZW4gMTk5NiAoRC5MLiBOwrA4MjIpLCBMZXkgcXVlIG1vZGlmaWNhIGxvcyBhcnTDrWN1bG9zIDE4OMKwIHkgMTg5wrAgZGVsIGRlY3JldG8gbGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZGVyZWNob3MgZGUgYXV0b3IgcHJvbXVsZ2FkbyBlbiAyMDA1IChMZXkgTsKwMjg1MTcpLCBEZWNyZXRvIExlZ2lzbGF0aXZvIHF1ZSBhcHJ1ZWJhIGxhIG1vZGlmaWNhY2nDs24gZGVsIERlY3JldG8gTGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZWwgRGVyZWNobyBkZSBBdXRvciBwcm9tdWxnYWRvIGVuIDIwMDggKEQuTC4gTsKwMTA3NikuCg== |
score |
13.982926 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).