Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS

Descripción del Articulo

El reconocimiento de voz se ha convertido en una funcionalidad obligatoria para diversos dispositivos y aplicaciones. Sin embargo, aún no se ha desarrollado la implementación más óptima que genere los mejores resultados. Por esta razón, en esta tesis se compararon los resultados de dos modelos end t...

Descripción completa

Detalles Bibliográficos
Autor: Escalante Calcina, Judith
Formato: tesis de grado
Fecha de Publicación:2021
Institución:Universidad Nacional de San Agustín
Repositorio:UNSA-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsa.edu.pe:20.500.12773/14085
Enlace del recurso:http://hdl.handle.net/20.500.12773/14085
Nivel de acceso:acceso abierto
Materia:Reconocimiento automático de voz
Modelos end to end
Deep learning
https://purl.org/pe-repo/ocde/ford#1.02.01
Descripción
Sumario:El reconocimiento de voz se ha convertido en una funcionalidad obligatoria para diversos dispositivos y aplicaciones. Sin embargo, aún no se ha desarrollado la implementación más óptima que genere los mejores resultados. Por esta razón, en esta tesis se compararon los resultados de dos modelos end to end (E2E, por sus siglas en inglés) de dos pasos, en base a la latencia y usando la tasa de error por palabra (WER, por sus siglas en inglés). El primer modelo estuvo compuesto por una red neuronal recurrente transductora (RNN-T, por sus siglas en inglés) y una red escuchar, atender y deletrear (LAS, por sus siglas en inglés) y el segundo modelo se formó de una red de memoria de corto y largo plazo (LSTM, por sus siglas en inglés) con algunas alteraciones y una red LAS. Se empleó un enfoque comparativo, donde primero se replicó la implementación del modelo E2E de dos pasos integrado por una RNN-T y una red LAS; luego, se alteró la arquitectura del primer modelo para generar el segundo modelo E2E de dos pasos formado por una LSTM y una red LAS; y finalmente se realizaron experimentos para confrontar sus resultados en términos de latencia y usando el sistema WER. Los resultados de los experimentos basados en los modelos E2E de dos pasos muestran una tasa de error inferior que la producida por modelos convencionales (LAS, LSTM, RNN-T). Por otro lado, la latencia generada por el modelo LSTM - LAS es menor que la producida por el modelo RNN-T - LAS, señalando de esta forma que las modificaciones realizadas para elaborar el segundo modelo fueron productivas. Por último, la evaluación hecha para medir el rendimiento expuso un buen desempeño, pero también revela que ambos modelos E2E de dos pasos tienen una alta tasa de pérdida. Las comparaciones entre modelos son importantes, ya que contribuyen a la optimización en los resultados y además pueden motivar la generación de nuevas propuestas, arquitecturas e incluso modelos E2E.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).