Resumen: Las redes neuronales convolucionales (CNN) han mejorado enormemente el rendimiento de reconocimiento de voz al explotar los patrones de frecuencia de tiempo localizados. Pero se supone que estos patrones aparecen en núcleos simétricos y rígidos por la operación convencional de CNN. Motra la pregunta: ¿Qué pasa con los núcleos asimétricos? En este estudio, ilustramos las vistas adaptativas pueden descubrir características locales que se combinan mejor con atención que las vistas fijas de la entrada. Reemplazamos los CNN de profundidad en la arquitectura del conformador con una contraparte deformable, denominado este “deformador”. Al analizar nuestro modelo de mejor rendimiento, visualizamos tanto los campos receptivos locales como los mapas de atención global aprendidos por el deformador y mostramos mayores asociaciones de características en el nivel de expresión. El análisis estadístico de las compensaciones de núcleo aprendidas proporciona una idea del cambio de información en las características con la profundidad de la red. Finalmente, reemplazando solo la mitad de las capas en el codificador, el deformador mejora +5.6% relativo sin un LM y +6.4% relativo con un LM sobre la línea de base del conformador en el conjunto WSJ Eval92.
Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original