Resumen: La poda de red neuronal ofrece un método efectivo para comprimir un modelo multilingüe de reconocimiento de voz automático (ASR) con una pérdida de rendimiento mínima. Sin embargo, implica varias rondas de poda y re-entrenamiento necesarios para cada idioma. En este trabajo, proponemos el uso de un enfoque de enmascaramiento adaptativo en dos escenarios para podar un modelo ASR multilingüe de manera eficiente, cada uno con modelos monolingües escasos o un modelo multilingüe escaso (llamado vías ASR dinámicas). Nuestro enfoque adapta dinámicamente la sub-red, evitando las decisiones prematuras sobre una estructura de sub-red fija. Mostramos que nuestro enfoque supera a los métodos de poda existentes cuando se dirige a modelos monolingües escasos. Además, ilustramos que las vías dinámicas ASR descubren y entrena conjuntamente mejores sub-red (vías) de un solo modelo multilingüe al adaptarse de diferentes inicializaciones de sub-red, reduciendo así la necesidad de una poda específica del lenguaje.
Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original