Align2Speak: Mejora de TTS para lenguajes de recursos bajos a través de la optimización de preferencias en línea guiadas por ASR

Resumen: Desarrollar sistemas de texto a voz de alta calidad (TTS) para lenguajes de baja recursos es un desafío debido a la escasez de datos de texto y del habla emparejados. Por el contrario, los modelos de reconocimiento de voz automático (ASR) para tales idiomas a menudo son más accesibles, debido a los esfuerzos de pre-entrenamiento multilingüe a gran escala. Proponemos un marco basado en la optimización de políticas relativas del grupo (GRPO) para adaptar un modelo TTS multilingüe autorregresivo a nuevos idiomas. Nuestro método primero establece una base de lenguaje-agnóstico para la síntesis de TTS mediante la capacitación de una línea de base multilingüe con tokens de alfabeto fonético internacional (IPA). A continuación, ajustamos este modelo en datos emparejados limitados de los nuevos idiomas para capturar las características prosódicas del idioma de destino. Finalmente, aplicamos GRPO para optimizar el modelo utilizando solo mensajes de texto y altavoces no emparejados, guiados por una recompensa de objetivos múltiples de ASR previamente provisionales, verificación de altavoces y modelos de estimación de calidad de audio. Los experimentos demuestran que esta tubería produce un habla inteligible y consistente en los altavoces en idiomas de baja recursos, superando sustancialmente el ajuste fino solo. Además, nuestro marco basado en GRPO también mejora el rendimiento de TTS en idiomas de alta recepción, superando los métodos de alineación fuera de línea, como la optimización de preferencias directas (DPO) que producen inteligibilidad superior, similitud de altavoces y calidad de audio.

Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Guardar la fecha: Día de información del Consejo de Innovación Europea (EIC) en Turín, Italia

Falsas alarmas, daño real: ataques adversos utilizando modelos basados ​​en LLM en sistemas de inteligencia de amenazas cibernéticas basadas en texto

Sistema múltiple de agente múltiple para MCP para la detección de desinformación automatizada

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Falsas alarmas, daño real: ataques adversos utilizando modelos basados en LLM en sistemas de inteligencia de amenazas cibernéticas basadas en texto