En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Escuchar: Aprendiendo incrustaciones de token suave para el audio neural LLMS

Escuchar: Aprendiendo incrustaciones de token suave para el audio neural LLMS

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de base basados ​​en modelos de idiomas grandes (LLM) han mostrado un gran éxito en el manejo de diversas tareas y modalidades. Sin embargo, adaptar estos modelos para tareas de audio-lenguaje de uso general es un desafío debido a las diferencias en los entornos acústicos y las variaciones de tareas. En este trabajo, presentamos incrustaciones de token suave de aprendizaje de escucha para LLMS de audio neural), un marco para adaptar las LLM a tareas de habla y audio. Listen utiliza una estrategia de selección de inmediato dinámica con pares de valores clave aprendibles, lo que permite que el modelo equilibre el conocimiento general y específico de la tarea mientras evita el sobreajuste en una configuración multitarea. Nuestro enfoque reduce la dependencia de ASR a gran escala o conjuntos de datos de subtítulos, logra un rendimiento competitivo con menos parámetros capacitables y simplifica la capacitación mediante el uso de un proceso de una sola etapa. Además, la escucha mejora la interpretabilidad al analizar la diversidad y la superposición de las indicaciones seleccionadas en diferentes tareas.

Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web