En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Los modelos audiovisuales en lenguaje grande realmente ven y oyen?

¿Los modelos audiovisuales en lenguaje grande realmente ven y oyen?

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos audiovisuales de lenguaje grande (AVLLM) están surgiendo como interfaces unificadas para la percepción multimodal. Presentamos el primer estudio de interpretabilidad mecanicista de AVLLM, analizando cómo las características de audio y visuales evolucionan y se fusionan a través de diferentes capas de un AVLLM para producir los resultados de texto finales. Descubrimos que, aunque los AVLLM codifican una semántica de audio rica en capas intermedias, estas capacidades en gran medida no aparecen en la generación final del texto cuando el audio entra en conflicto con la visión. Los análisis de sondeo muestran que está presente información de audio latente útil, pero las capas de fusión más profundas privilegian desproporcionadamente las representaciones visuales que tienden a suprimir las señales de audio. Además, rastreamos este desequilibrio hasta el entrenamiento: el comportamiento de audio del AVLLM coincide fuertemente con su modelo base de visión-lenguaje, lo que indica una alineación adicional limitada con la supervisión de audio. Nuestros hallazgos revelan un sesgo de modalidad fundamental en los AVLLM y brindan nuevos conocimientos mecánicos sobre cómo los LLM multimodales integran el audio y la visión.

Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web