En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Entrenamiento gratuito de pronunciación-léplica para ASR cruzlingual basado en fonemas a través de una aproximación estocástica conjunta

Entrenamiento gratuito de pronunciación-léplica para ASR cruzlingual basado en fonemas a través de una aproximación estocástica conjunta

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Recientemente, los modelos previamente capacitados con supervisión fonética han demostrado sus ventajas para el reconocimiento de voz cruzado en la eficiencia de los datos y el intercambio de información en todos los idiomas. Sin embargo, una limitación es que se necesita un léxico de pronunciación para dicho reconocimiento de voz cruzado basado en fonemas. En este estudio, nuestro objetivo es eliminar la necesidad de léxicos de pronunciación y proponer un método basado en el modelo de variable latente, con fonemas tratados como variables latentes discretas. El nuevo método consiste en un modelo de voz a fonema (S2P) y un modelo de fonema a gráfico (P2G), y un modelo de grafema a fonema (G2P) se introduce como un modelo de inferencia auxiliar. Para entrenar conjuntamente los tres modelos, utilizamos el algoritmo de aproximación estocástica conjunta (JSA), que es una extensión estocástica del algoritmo EM (expectativa-maximización) y ha demostrado un rendimiento superior, particularmente en la estimación de modelos variables latentes discretos. Basado en el modelo S2P multilingüe de silbito, los experimentos cruzados, se realizan experimentos cruzados en polaco (130 h) e indonesio (20 h). Con solo 10 minutos de supervisión de fonemas, el nuevo método, JSA-SPG, logra reducciones de tasa de error del 5 % en comparación con el mejor enfoque de ajuste fino cruzado utilizando la supervisión de la subvención o el fonema completo. Además, se encuentra que en la adaptación del dominio del lenguaje (es decir, el uso de datos de texto de dominio cruzado), JSA-SPG supera la práctica estándar de la fusión del modelo de lenguaje a través del soporte auxiliar del modelo G2P con reducciones de tasa de error del 9%. Para facilitar la reproducibilidad y fomentar una mayor exploración en este campo, de código abierto el código de entrenamiento JSA-SPG y la tubería completa.

Publicado Originalme en export.arxiv.org El 9 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web