Resumen: Desarrollar sistemas de texto a voz de alta calidad (TTS) para lenguajes de baja recursos es un desafío debido a la escasez de datos de texto y del habla emparejados. Por el contrario, los modelos de reconocimiento de voz automático (ASR) para tales idiomas a menudo son más accesibles, debido a los esfuerzos de pre-entrenamiento multilingüe a gran escala. Proponemos un marco basado en la optimización de políticas relativas del grupo (GRPO) para adaptar un modelo TTS multilingüe autorregresivo a nuevos idiomas. Nuestro método primero establece una base de lenguaje-agnóstico para la síntesis de TTS mediante la capacitación de una línea de base multilingüe con tokens de alfabeto fonético internacional (IPA). A continuación, ajustamos este modelo en datos emparejados limitados de los nuevos idiomas para capturar las características prosódicas del idioma de destino. Finalmente, aplicamos GRPO para optimizar el modelo utilizando solo mensajes de texto y altavoces no emparejados, guiados por una recompensa de objetivos múltiples de ASR previamente provisionales, verificación de altavoces y modelos de estimación de calidad de audio. Los experimentos demuestran que esta tubería produce un habla inteligible y consistente en los altavoces en idiomas de baja recursos, superando sustancialmente el ajuste fino solo. Además, nuestro marco basado en GRPO también mejora el rendimiento de TTS en idiomas de alta recepción, superando los métodos de alineación fuera de línea, como la optimización de preferencias directas (DPO) que producen inteligibilidad superior, similitud de altavoces y calidad de audio.
Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original