En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Deformador: acoplamiento patrones localizados deformados con un contexto global para un robusto reconocimiento de voz de extremo a extremo

Deformador: acoplamiento patrones localizados deformados con un contexto global para un robusto reconocimiento de voz de extremo a extremo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las redes neuronales convolucionales (CNN) han mejorado enormemente el rendimiento de reconocimiento de voz al explotar los patrones de frecuencia de tiempo localizados. Pero se supone que estos patrones aparecen en núcleos simétricos y rígidos por la operación convencional de CNN. Motra la pregunta: ¿Qué pasa con los núcleos asimétricos? En este estudio, ilustramos las vistas adaptativas pueden descubrir características locales que se combinan mejor con atención que las vistas fijas de la entrada. Reemplazamos los CNN de profundidad en la arquitectura del conformador con una contraparte deformable, denominado este “deformador”. Al analizar nuestro modelo de mejor rendimiento, visualizamos tanto los campos receptivos locales como los mapas de atención global aprendidos por el deformador y mostramos mayores asociaciones de características en el nivel de expresión. El análisis estadístico de las compensaciones de núcleo aprendidas proporciona una idea del cambio de información en las características con la profundidad de la red. Finalmente, reemplazando solo la mitad de las capas en el codificador, el deformador mejora +5.6% relativo sin un LM y +6.4% relativo con un LM sobre la línea de base del conformador en el conjunto WSJ Eval92.

Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web