Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS

No hay miniatura disponible
Fecha
2021
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Nacional de San Agustín de Arequipa
Resumen
El reconocimiento de voz se ha convertido en una funcionalidad obligatoria para diversos dispositivos y aplicaciones. Sin embargo, aún no se ha desarrollado la implementación más óptima que genere los mejores resultados. Por esta razón, en esta tesis se compararon los resultados de dos modelos end to end (E2E, por sus siglas en inglés) de dos pasos, en base a la latencia y usando la tasa de error por palabra (WER, por sus siglas en inglés). El primer modelo estuvo compuesto por una red neuronal recurrente transductora (RNN-T, por sus siglas en inglés) y una red escuchar, atender y deletrear (LAS, por sus siglas en inglés) y el segundo modelo se formó de una red de memoria de corto y largo plazo (LSTM, por sus siglas en inglés) con algunas alteraciones y una red LAS. Se empleó un enfoque comparativo, donde primero se replicó la implementación del modelo E2E de dos pasos integrado por una RNN-T y una red LAS; luego, se alteró la arquitectura del primer modelo para generar el segundo modelo E2E de dos pasos formado por una LSTM y una red LAS; y finalmente se realizaron experimentos para confrontar sus resultados en términos de latencia y usando el sistema WER. Los resultados de los experimentos basados en los modelos E2E de dos pasos muestran una tasa de error inferior que la producida por modelos convencionales (LAS, LSTM, RNN-T). Por otro lado, la latencia generada por el modelo LSTM - LAS es menor que la producida por el modelo RNN-T - LAS, señalando de esta forma que las modificaciones realizadas para elaborar el segundo modelo fueron productivas. Por último, la evaluación hecha para medir el rendimiento expuso un buen desempeño, pero también revela que ambos modelos E2E de dos pasos tienen una alta tasa de pérdida. Las comparaciones entre modelos son importantes, ya que contribuyen a la optimización en los resultados y además pueden motivar la generación de nuevas propuestas, arquitecturas e incluso modelos E2E.
Descripción
Palabras clave
Reconocimiento automático de voz, Modelos end to end, Deep learning
Citación