1
tesis de grado
Publicado 2021
Enlace
Enlace
El reconocimiento de voz se ha convertido en una funcionalidad obligatoria para diversos dispositivos y aplicaciones. Sin embargo, aún no se ha desarrollado la implementación más óptima que genere los mejores resultados. Por esta razón, en esta tesis se compararon los resultados de dos modelos end to end (E2E, por sus siglas en inglés) de dos pasos, en base a la latencia y usando la tasa de error por palabra (WER, por sus siglas en inglés). El primer modelo estuvo compuesto por una red neuronal recurrente transductora (RNN-T, por sus siglas en inglés) y una red escuchar, atender y deletrear (LAS, por sus siglas en inglés) y el segundo modelo se formó de una red de memoria de corto y largo plazo (LSTM, por sus siglas en inglés) con algunas alteraciones y una red LAS. Se empleó un enfoque comparativo, donde primero se replicó la implementación del modelo E2E de dos pasos inte...