En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Sommelier: preprocesamiento de audio escalable, abierto y multivuelta para modelos de lenguaje de voz full-duplex

Sommelier: preprocesamiento de audio escalable, abierto y multivuelta para modelos de lenguaje de voz full-duplex

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:A medida que el paradigma de la IA cambia de los LLM basados ​​en texto a los modelos de lenguaje de voz (SLM), existe una demanda creciente de sistemas full-duplex capaces de interactuar de forma natural y en tiempo real entre humanos y computadoras. Sin embargo, el desarrollo de tales modelos se ve limitado por la escasez de datos conversacionales de alta calidad entre múltiples hablantes, ya que los recursos existentes a gran escala son predominantemente de un solo hablante o tienen un volumen limitado. Abordar la dinámica compleja del diálogo natural, como la superposición y la canalización inversa, sigue siendo un desafío, ya que los procesos de procesamiento estándar sufren errores de diarización y alucinaciones ASR. Para cerrar esta brecha, presentamos un proceso de procesamiento de datos de código abierto robusto y escalable diseñado para un modelo full-duplex.

Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web