En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->La escala de datos, no la latencia, da forma a la transferencia de codificador entre idiomas en streaming ASR

La escala de datos, no la latencia, da forma a la transferencia de codificador entre idiomas en streaming ASR

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Adaptar un modelo de reconocimiento de voz en streaming a un nuevo idioma requiere elegir entre dos posibles inicios en caliente: un codificador multilingüe (ML) o un codificador de solo inglés (EN). La intuición común es que el codificador multilingüe debería ayudar más con datos bajos, pero no está claro cuánto tiempo persiste esa ventaja, si la latencia de transmisión ajustada la amplifica y si sobrevive a la cuantificación de la implementación. Respondemos a estas preguntas con un barrido controlado de un transductor FastConformer con reconocimiento de caché de 0,6 parámetros B en ocho idiomas europeos, hasta cinco escalas de datos del idioma de destino (100 h a 2500 h), tres niveles de transmisión más decodificación fuera de línea y hasta cuatro conjuntos de prueba públicos. El resultado principal es que la inicialización multilingüe es una ventaja limitada por los datos, no por la latencia. En FLEURS a 160 ms, la brecha media entre la tasa de error de palabras (WER) EN-ML cae de +4,21 puntos porcentuales (pp) a las 100 h a +0,20 pp a las 2500 h; un ajuste de ley de potencia resume esta decadencia, en la que cada duplicación de los datos del idioma de destino reduce aproximadamente a la mitad la ventaja restante. En los tres niveles de transmisión, la brecha EN-ML media en todos los idiomas es aproximadamente estable en cada escala de 100 a 1000 h, y es cercana a cero a las 2500 h. Finalmente, la cuantificación del codificador de solo peso de 4 bits en el nivel de transmisión coincidente de 560 ms reduce la huella del codificador en aproximadamente 3 veces, con un aumento promedio de FLEURS WER de aproximadamente 0,5 pp. La pauta resultante es simple: use la inicialización multilingüe en regímenes de datos bajos, trate la elección como efectivamente irrelevante en datos grandes y tome decisiones de latencia y cuantificación de forma independiente.

Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web