La escala de datos, no la latencia, da forma a la transferencia de codificador entre idiomas en streaming ASR

Resumen: Adaptar un modelo de reconocimiento de voz en streaming a un nuevo idioma requiere elegir entre dos posibles inicios en caliente: un codificador multilingüe (ML) o un codificador de solo inglés (EN). La intuición común es que el codificador multilingüe debería ayudar más con datos bajos, pero no está claro cuánto tiempo persiste esa ventaja, si la latencia de transmisión ajustada la amplifica y si sobrevive a la cuantificación de la implementación. Respondemos a estas preguntas con un barrido controlado de un transductor FastConformer con reconocimiento de caché de 0,6 parámetros B en ocho idiomas europeos, hasta cinco escalas de datos del idioma de destino (100 h a 2500 h), tres niveles de transmisión más decodificación fuera de línea y hasta cuatro conjuntos de prueba públicos. El resultado principal es que la inicialización multilingüe es una ventaja limitada por los datos, no por la latencia. En FLEURS a 160 ms, la brecha media entre la tasa de error de palabras (WER) EN-ML cae de +4,21 puntos porcentuales (pp) a las 100 h a +0,20 pp a las 2500 h; un ajuste de ley de potencia resume esta decadencia, en la que cada duplicación de los datos del idioma de destino reduce aproximadamente a la mitad la ventaja restante. En los tres niveles de transmisión, la brecha EN-ML media en todos los idiomas es aproximadamente estable en cada escala de 100 a 1000 h, y es cercana a cero a las 2500 h. Finalmente, la cuantificación del codificador de solo peso de 4 bits en el nivel de transmisión coincidente de 560 ms reduce la huella del codificador en aproximadamente 3 veces, con un aumento promedio de FLEURS WER de aproximadamente 0,5 pp. La pauta resultante es simple: use la inicialización multilingüe en regímenes de datos bajos, trate la elección como efectivamente irrelevante en datos grandes y tome decisiones de latencia y cuantificación de forma independiente.

Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Seguimiento de pasos de ciudades similares: modelado de la vitalidad económica urbana con incorporaciones dinámicas de gráficos entre ciudades

Explorar el reconocimiento del estado del objeto para el seguimiento del progreso de las recetas en cocción no visual

Los créditos fiscales de EV están muertos en los Estados Unidos. ¿Ahora que?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido