Resumen: Los modelos de base basados en modelos de idiomas grandes (LLM) han mostrado un gran éxito en el manejo de diversas tareas y modalidades. Sin embargo, adaptar estos modelos para tareas de audio-lenguaje de uso general es un desafío debido a las diferencias en los entornos acústicos y las variaciones de tareas. En este trabajo, presentamos incrustaciones de token suave de aprendizaje de escucha para LLMS de audio neural), un marco para adaptar las LLM a tareas de habla y audio. Listen utiliza una estrategia de selección de inmediato dinámica con pares de valores clave aprendibles, lo que permite que el modelo equilibre el conocimiento general y específico de la tarea mientras evita el sobreajuste en una configuración multitarea. Nuestro enfoque reduce la dependencia de ASR a gran escala o conjuntos de datos de subtítulos, logra un rendimiento competitivo con menos parámetros capacitables y simplifica la capacitación mediante el uso de un proceso de una sola etapa. Además, la escucha mejora la interpretabilidad al analizar la diversidad y la superposición de las indicaciones seleccionadas en diferentes tareas.
Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original