Entrenamiento gratuito de pronunciación-léplica para ASR cruzlingual basado en fonemas a través de una aproximación estocástica conjunta

Resumen: Recientemente, los modelos previamente capacitados con supervisión fonética han demostrado sus ventajas para el reconocimiento de voz cruzado en la eficiencia de los datos y el intercambio de información en todos los idiomas. Sin embargo, una limitación es que se necesita un léxico de pronunciación para dicho reconocimiento de voz cruzado basado en fonemas. En este estudio, nuestro objetivo es eliminar la necesidad de léxicos de pronunciación y proponer un método basado en el modelo de variable latente, con fonemas tratados como variables latentes discretas. El nuevo método consiste en un modelo de voz a fonema (S2P) y un modelo de fonema a gráfico (P2G), y un modelo de grafema a fonema (G2P) se introduce como un modelo de inferencia auxiliar. Para entrenar conjuntamente los tres modelos, utilizamos el algoritmo de aproximación estocástica conjunta (JSA), que es una extensión estocástica del algoritmo EM (expectativa-maximización) y ha demostrado un rendimiento superior, particularmente en la estimación de modelos variables latentes discretos. Basado en el modelo S2P multilingüe de silbito, los experimentos cruzados, se realizan experimentos cruzados en polaco (130 h) e indonesio (20 h). Con solo 10 minutos de supervisión de fonemas, el nuevo método, JSA-SPG, logra reducciones de tasa de error del 5 % en comparación con el mejor enfoque de ajuste fino cruzado utilizando la supervisión de la subvención o el fonema completo. Además, se encuentra que en la adaptación del dominio del lenguaje (es decir, el uso de datos de texto de dominio cruzado), JSA-SPG supera la práctica estándar de la fusión del modelo de lenguaje a través del soporte auxiliar del modelo G2P con reducciones de tasa de error del 9%. Para facilitar la reproducibilidad y fomentar una mayor exploración en este campo, de código abierto el código de entrenamiento JSA-SPG y la tubería completa.

Publicado Originalme en export.arxiv.org El 9 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Synaptics presenta la familia First Vera-Fi 7 a medida para el IoT

Análisis de la solución de programación lineal aproximada al problema de decisión de Markov con la función de barrera de registro

Desalineación emergente como sensibilidad rápida: una nota de investigación

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido