¿Los modelos audiovisuales en lenguaje grande realmente ven y oyen?

Resumen: Los modelos audiovisuales de lenguaje grande (AVLLM) están surgiendo como interfaces unificadas para la percepción multimodal. Presentamos el primer estudio de interpretabilidad mecanicista de AVLLM, analizando cómo las características de audio y visuales evolucionan y se fusionan a través de diferentes capas de un AVLLM para producir los resultados de texto finales. Descubrimos que, aunque los AVLLM codifican una semántica de audio rica en capas intermedias, estas capacidades en gran medida no aparecen en la generación final del texto cuando el audio entra en conflicto con la visión. Los análisis de sondeo muestran que está presente información de audio latente útil, pero las capas de fusión más profundas privilegian desproporcionadamente las representaciones visuales que tienden a suprimir las señales de audio. Además, rastreamos este desequilibrio hasta el entrenamiento: el comportamiento de audio del AVLLM coincide fuertemente con su modelo base de visión-lenguaje, lo que indica una alineación adicional limitada con la supervisión de audio. Nuestros hallazgos revelan un sesgo de modalidad fundamental en los AVLLM y brindan nuevos conocimientos mecánicos sobre cómo los LLM multimodales integran el audio y la visión.

Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Viernes de vídeo: estos robots nacieron para correr

DynaTrust: defensa de sistemas multiagente contra agentes durmientes mediante gráficos de confianza dinámicos

REFINE: Exploración del mundo real de la retroalimentación interactiva y el comportamiento de los estudiantes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido