Resumen: Una razón fundamental para el dominio de la atención sobre RNNS y LSTMS en LLM es su capacidad para capturar dependencias de largo alcance modelando interacciones directas entre todos los tokens, superando las limitaciones secuenciales de las arquitecturas recurrentes. Del mismo modo, una razón clave por la cual los modelos de lenguaje de visión de hoy (VLMS) alucinan y tienen un rendimiento inferior a los modelos de lenguaje puro es que dependen de la concatenación directa de la imagen y los tokens de texto con una codificación posicional negativa de modalidad, que adopta convenientemente la red troncal de LLM previa al petróleo, pero obliga a la atención de larga duración innecesaria entre las tokens semánticamente relacionadas a través de las modalidades de las modalidades. Esto subraya la necesidad urgente de mecanismos que mejoran eficientemente la localidad del token y la alineación intermodal. En respuesta, proponemos el ancla de atención, un marco sin parámetros que agrupa eficientemente tokens semánticamente similares a través de modalidades, mejorando la localidad intermodal. Al insertar tokens de texto cerca de parches visuales relevantes, creamos señales semánticas que revelan verdaderos puntajes de atención intermodal basados en contenido, guiando al modelo para centrarse en las regiones de imagen correctas para tareas como VQA, Mmbench y Pope. Esto mejora la precisión de la respuesta y reduce las alucinaciones sin interrumpir el flujo semántico del aviso. Attanchor logra mejoras en 13 de 15 métricas y puntos de referencia diferentes, incluidas hasta el 32% de ganancias en tareas de razonamiento y mejoras de hasta el 15% en los puntos de referencia de alucinación. Attanchor permite que TinylLava 1B supere los modelos mucho más grandes como Llava 7B y QWenVL 3B en Pope con solo gastos generales de tiempo de inferencia de 0.1%. Hasta donde sabemos, este trabajo es uno de los primeros en investigar la agrupación de tokens modales mixtos, donde los tokens de texto e imagen se agrupan conjuntamente en grupos compartidos en lugar de agruparse dentro de una sola modalidad o simplemente alineados post-hoc con pérdidas de alineación adicionales.
Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original
