Sommelier: preprocesamiento de audio escalable, abierto y multivuelta para modelos de lenguaje de voz full-duplex

Resumen:A medida que el paradigma de la IA cambia de los LLM basados en texto a los modelos de lenguaje de voz (SLM), existe una demanda creciente de sistemas full-duplex capaces de interactuar de forma natural y en tiempo real entre humanos y computadoras. Sin embargo, el desarrollo de tales modelos se ve limitado por la escasez de datos conversacionales de alta calidad entre múltiples hablantes, ya que los recursos existentes a gran escala son predominantemente de un solo hablante o tienen un volumen limitado. Abordar la dinámica compleja del diálogo natural, como la superposición y la canalización inversa, sigue siendo un desafío, ya que los procesos de procesamiento estándar sufren errores de diarización y alucinaciones ASR. Para cerrar esta brecha, presentamos un proceso de procesamiento de datos de código abierto robusto y escalable diseñado para un modelo full-duplex.

Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿El paradigma de “ agente ” es un marco limitante para sistemas inteligentes de próxima generación?

Compilación de la programación del conjunto de respuestas temporales métricas

Sesgo cognitivo programable en agentes sociales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido