En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Desbloqueando el potencial de datos de instrucciones del habla con la reescritura de consultas

Desbloqueando el potencial de datos de instrucciones del habla con la reescritura de consultas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: los modelos de lenguaje de voz grande de extremo a extremo ~ ( textBF {LSLMS}) demuestran un fuerte potencial en las capacidades de latencia de respuesta y comprensión del habla, que muestra inteligencia general en las tareas de comprensión del habla. Sin embargo, la capacidad de seguir las instrucciones del habla no se ha realizado plenamente debido a la falta de conjuntos de datos y tareas de capacitación muy sesgadas. Aprovechando los conjuntos de datos ASR ricos, los enfoques anteriores han utilizado modelos de lenguaje grandes ~ ( textbf {llms}) para continuar la información lingüística del habla para construir conjuntos de datos de instrucciones del habla. Sin embargo, debido a la brecha entre los resultados generados por LLM y las respuestas humanas reales, los métodos de continuación amplifican aún más estas deficiencias. Dados los altos costos de recopilar y anotar conjuntos de datos de instrucciones de habla por parte de los humanos, el uso de la síntesis del habla para construir conjuntos de datos de instrucciones de voz a gran escala se ha convertido en una alternativa equilibrada y robusta. Aunque los modelos modernos de texto a voz ~ ( textbf {TTS}) han alcanzado la calidad de síntesis de nivel de nivel humano, es difícil convertir adecuadamente la instrucción de texto fuera de distribución en el habla debido a las limitaciones de la distribución de datos de capacitación en los modelos TTS. Para abordar este problema, proponemos un marco de reescritura de consultas con fusión de conocimiento multi-LLM, empleando múltiples agentes para anotar y validar el discurso sintetizado, lo que hace posible construir conjuntos de datos de instrucciones de voz de alta calidad sin depender de la anotación humana. Los experimentos muestran que este método puede transformar las instrucciones de texto en distribuciones más adecuadas para los modelos TTS para la síntesis del habla a través de la reescritura de disparo cero, lo que aumenta la usabilidad de los datos de 72 % a 93 %. También demuestra ventajas únicas en la reescritura de tareas que requieren conocimientos complejos y habilidades relacionadas con el contexto.

Publicado Originalme en export.arxiv.org El 13 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web