Cómo la visión se convierte en lenguaje: un análisis teórico de la información por capas del razonamiento multimodal

Resumen: Cuando un transformador multimodal responde a una pregunta visual, ¿la predicción está impulsada por evidencia visual, razonamiento lingüístico o computación intermodal genuinamente fusionada, y cómo evoluciona esta estructura a través de las capas? Abordamos esta pregunta con un marco de capas basado en la descomposición parcial de información (PID) que descompone la información predictiva en cada capa de Transformer en componentes redundantes, únicos para la visión, únicos para el lenguaje y sinérgicos. Para hacer que PID sea manejable para representaciones neuronales de alta dimensión, presentamos emph{PID Flow}, un proceso que combina reducción de dimensionalidad, gaussianización de flujo normalizado y estimación PID gaussiana de forma cerrada. Al aplicar este marco a LLaVA-1.5-7B y LLaVA-1.6-7B en seis tareas de razonamiento de GQA, descubrimos un patrón de emph{transducción modal} consistente: la información visual única alcanza su punto máximo temprano y decae con la profundidad, la información única del lenguaje surge en capas tardías para representar aproximadamente el 82% de la predicción final, y la sinergia intermodal se mantiene por debajo del 2%. Esta trayectoria es muy estable en todas las variantes del modelo (correlaciones por capas $>$0,96) pero depende fuertemente de la tarea, con redundancia semántica que gobierna la huella digital de la información detallada. Para establecer la causalidad, realizamos eliminaciones de atención de Image$rightarrow$Preguntas dirigidas y mostramos que la interrupción de la vía de transducción primaria induce aumentos predecibles en la información visual única atrapada, la sinergia compensatoria y el costo total de la información: efectos que son más fuertes en tareas dependientes de la visión y más débiles en tareas de alta redundancia. Juntos, estos resultados proporcionan una explicación causal, teórica de la información, de cómo la visión se convierte en lenguaje en Transformers multimodales y ofrecen una guía cuantitativa para identificar cuellos de botella arquitectónicos donde se pierde información específica de la modalidad.

Publicado originalmente en export.arxiv.org el 17 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Ingeniería para una mejor atención

Razonamiento causal comprimido: efectos de cuantificación y GraphRAG sobre la precisión intervencionista y contrafactual

Relevancia, necesidad y utilidad de características: complejidad y algoritmos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido