Resumen: Los grandes modelos multimodales (LMM) demuestran impresionantes habilidades de aprendizaje en contexto de demostraciones multimodales limitadas, sin embargo, los mecanismos internos que respaldan dicho aprendizaje de tareas siguen siendo opacos. Sobre la base de trabajos anteriores de modelos de idiomas grandes, mostramos que un pequeño subconjunto de atención en el modelo de visión OpenFlamingo-4B es responsable de transmitir representaciones de relaciones espaciales. Las activaciones de estos cabezales de atención, denominados vectores de funciones, pueden extraerse y manipularse para alterar el rendimiento de un LMM en tareas relacionales. Primero, utilizando conjuntos de datos de imágenes sintéticos y reales, aplicamos un análisis de mediación causal para identificar cabezas de atención que influyen fuertemente en las predicciones relacionales y extraen vectores de función multimodal que mejoran la precisión de disparo cero en el tiempo de inferencia. Además, demostramos que estos vectores de funciones multimodales pueden ajustarse con una cantidad modesta de datos de entrenamiento, al tiempo que mantienen los parámetros LMM congelados, para superar significativamente las líneas de base de aprendizaje en contexto. Finalmente, mostramos que los vectores de función específicos de la relación pueden combinarse linealmente para resolver problemas de analogía que involucran relaciones espaciales novedosas y no entrenadas, destacando la fuerte capacidad de generalización de este enfoque. Nuestros resultados muestran que los LMM codifican el conocimiento relacional espacial dentro de las estructuras internas localizadas, que se pueden extraer y optimizar sistemáticamente, avanzando así nuestra comprensión de la modularidad del modelo y mejorando el control sobre el razonamiento relacional en LMM.
Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original
