Escuchar: Aprendiendo incrustaciones de token suave para el audio neural LLMS

Resumen: Los modelos de base basados en modelos de idiomas grandes (LLM) han mostrado un gran éxito en el manejo de diversas tareas y modalidades. Sin embargo, adaptar estos modelos para tareas de audio-lenguaje de uso general es un desafío debido a las diferencias en los entornos acústicos y las variaciones de tareas. En este trabajo, presentamos incrustaciones de token suave de aprendizaje de escucha para LLMS de audio neural), un marco para adaptar las LLM a tareas de habla y audio. Listen utiliza una estrategia de selección de inmediato dinámica con pares de valores clave aprendibles, lo que permite que el modelo equilibre el conocimiento general y específico de la tarea mientras evita el sobreajuste en una configuración multitarea. Nuestro enfoque reduce la dependencia de ASR a gran escala o conjuntos de datos de subtítulos, logra un rendimiento competitivo con menos parámetros capacitables y simplifica la capacitación mediante el uso de un proceso de una sola etapa. Además, la escucha mejora la interpretabilidad al analizar la diversidad y la superposición de las indicaciones seleccionadas en diferentes tareas.

Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

LF AI & Data Foundation Hosts Vortex Project para alimentar el acceso a datos de alto rendimiento para AI y Analytics

Hacia descripciones basadas en la ontología de conversaciones con conceptos cualitativamente definidos

Cómo las iglesias usan datos y IA como motores de vigilancia

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido