Vías ASR dinámicas: un enfoque de enmascaramiento adaptativo hacia la poda eficiente de un modelo ASR multilingüe

Resumen: La poda de red neuronal ofrece un método efectivo para comprimir un modelo multilingüe de reconocimiento de voz automático (ASR) con una pérdida de rendimiento mínima. Sin embargo, implica varias rondas de poda y re-entrenamiento necesarios para cada idioma. En este trabajo, proponemos el uso de un enfoque de enmascaramiento adaptativo en dos escenarios para podar un modelo ASR multilingüe de manera eficiente, cada uno con modelos monolingües escasos o un modelo multilingüe escaso (llamado vías ASR dinámicas). Nuestro enfoque adapta dinámicamente la sub-red, evitando las decisiones prematuras sobre una estructura de sub-red fija. Mostramos que nuestro enfoque supera a los métodos de poda existentes cuando se dirige a modelos monolingües escasos. Además, ilustramos que las vías dinámicas ASR descubren y entrena conjuntamente mejores sub-red (vías) de un solo modelo multilingüe al adaptarse de diferentes inicializaciones de sub-red, reduciendo así la necesidad de una poda específica del lenguaje.

Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Racionanomalía: Detección de anomalías log con racionalidad a través de la cadena de pensamiento y el aprendizaje de refuerzo

Fabricación inteligente Kuala Lumpur 2025 comienza la próxima semana

Una breve historia de la tecnología de gemelos digitales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido