Resumen: La carga computacional de la atención en modelos de lenguaje de contexto largo ha motivado dos líneas de trabajo en gran medida independientes: mecanismos de atención dispersa que reducen la complejidad al atender a tokens seleccionados y variantes de atención cerrada que mejoran la estabilidad del entrenamiento y al mismo tiempo mitigan el fenómeno del sumidero de atención. Observamos que estos enfoques abordan debilidades complementarias y proponen Gated Sparse Attention (GSA), una arquitectura que aprovecha los beneficios de ambos. GSA incorpora un indexador relámpago cerrado con activaciones sigmoideas que producen puntuaciones de selección acotadas e interpretables, un controlador de escasez adaptativo que modula la cantidad de tokens atendidos en función de la incertidumbre local y puerta dual en las etapas de valor y salida. Establecemos fundamentos teóricos para el enfoque, incluido el análisis de complejidad, resultados de expresividad y garantías de convergencia. En experimentos con modelos de parámetros de 1,7 mil millones entrenados en tokens de 400 mil millones, GSA iguala la eficiencia de líneas de base dispersas (aceleración de 12 a 16 veces en un contexto de 128 K) al tiempo que logra las ganancias de calidad asociadas con la atención cerrada: la perplejidad mejora de 6,03 a 5,70, las puntuaciones de RULER en un contexto de 128 K casi se duplican y la atención al primer token, un indicador de la atención disminuye, cae del 47 % a menos. 4%. La estabilidad del entrenamiento mejora notablemente, con picos de pérdidas reducidos en un 98%.
Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original
