Deformador: acoplamiento patrones localizados deformados con un contexto global para un robusto reconocimiento de voz de extremo a extremo

Resumen: Las redes neuronales convolucionales (CNN) han mejorado enormemente el rendimiento de reconocimiento de voz al explotar los patrones de frecuencia de tiempo localizados. Pero se supone que estos patrones aparecen en núcleos simétricos y rígidos por la operación convencional de CNN. Motra la pregunta: ¿Qué pasa con los núcleos asimétricos? En este estudio, ilustramos las vistas adaptativas pueden descubrir características locales que se combinan mejor con atención que las vistas fijas de la entrada. Reemplazamos los CNN de profundidad en la arquitectura del conformador con una contraparte deformable, denominado este “deformador”. Al analizar nuestro modelo de mejor rendimiento, visualizamos tanto los campos receptivos locales como los mapas de atención global aprendidos por el deformador y mostramos mayores asociaciones de características en el nivel de expresión. El análisis estadístico de las compensaciones de núcleo aprendidas proporciona una idea del cambio de información en las características con la profundidad de la red. Finalmente, reemplazando solo la mitad de las capas en el codificador, el deformador mejora +5.6% relativo sin un LM y +6.4% relativo con un LM sobre la línea de base del conformador en el conjunto WSJ Eval92.

Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Rectificar comportamientos abreviados en el aprendizaje de recompensas basado en preferencias

Aioti Days, 22/23 de septiembre de 2025, Madrid, España

Límites del razonamiento emergente de modelos de lenguaje grandes en marcos agentes para juegos deterministas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido