Resumen:A medida que el paradigma de la IA cambia de los LLM basados en texto a los modelos de lenguaje de voz (SLM), existe una demanda creciente de sistemas full-duplex capaces de interactuar de forma natural y en tiempo real entre humanos y computadoras. Sin embargo, el desarrollo de tales modelos se ve limitado por la escasez de datos conversacionales de alta calidad entre múltiples hablantes, ya que los recursos existentes a gran escala son predominantemente de un solo hablante o tienen un volumen limitado. Abordar la dinámica compleja del diálogo natural, como la superposición y la canalización inversa, sigue siendo un desafío, ya que los procesos de procesamiento estándar sufren errores de diarización y alucinaciones ASR. Para cerrar esta brecha, presentamos un proceso de procesamiento de datos de código abierto robusto y escalable diseñado para un modelo full-duplex.
Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original
