Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS

Escalante Calcina, Judith

Two - pass end-to-end: RNN-T-LAS VS. LSTM-LAS

Archivos

CCescaj.pdf(11.02 MB)

Fecha

2021

Autores

Escalante Calcina, Judith

Editor

Universidad Nacional de San Agustín de Arequipa

Resumen

El reconocimiento de voz se ha convertido en una funcionalidad obligatoria para diversos dispositivos y aplicaciones. Sin embargo, aún no se ha desarrollado la implementación más óptima que genere los mejores resultados. Por esta razón, en esta tesis se compararon los resultados de dos modelos end to end (E2E, por sus siglas en inglés) de dos pasos, en base a la latencia y usando la tasa de error por palabra (WER, por sus siglas en inglés). El primer modelo estuvo compuesto por una red neuronal recurrente transductora (RNN-T, por sus siglas en inglés) y una red escuchar, atender y deletrear (LAS, por sus siglas en inglés) y el segundo modelo se formó de una red de memoria de corto y largo plazo (LSTM, por sus siglas en inglés) con algunas alteraciones y una red LAS. Se empleó un enfoque comparativo, donde primero se replicó la implementación del modelo E2E de dos pasos integrado por una RNN-T y una red LAS; luego, se alteró la arquitectura del primer modelo para generar el segundo modelo E2E de dos pasos formado por una LSTM y una red LAS; y finalmente se realizaron experimentos para confrontar sus resultados en términos de latencia y usando el sistema WER. Los resultados de los experimentos basados en los modelos E2E de dos pasos muestran una tasa de error inferior que la producida por modelos convencionales (LAS, LSTM, RNN-T). Por otro lado, la latencia generada por el modelo LSTM - LAS es menor que la producida por el modelo RNN-T - LAS, señalando de esta forma que las modificaciones realizadas para elaborar el segundo modelo fueron productivas. Por último, la evaluación hecha para medir el rendimiento expuso un buen desempeño, pero también revela que ambos modelos E2E de dos pasos tienen una alta tasa de pérdida. Las comparaciones entre modelos son importantes, ya que contribuyen a la optimización en los resultados y además pueden motivar la generación de nuevas propuestas, arquitecturas e incluso modelos E2E.

Palabras clave

Reconocimiento automático de voz, Modelos end to end, Deep learning

URI

http://hdl.handle.net/20.500.12773/14085

Colecciones

Escuela Profesional de Ciencia de la Computación

Página completa del ítem