Resumen: Los transformadores asignan cálculos uniformes a cada posición, independientemente de la dificultad. Los modelos de espacio de estados (SSM) ofrecen alternativas eficientes, pero tienen dificultades para recuperar información precisa a largo plazo. Inspirándonos en las teorías de cognición de proceso dual (Kahneman, 2011), proponemos AMOR (Adaptive Metacognitive Output Router), una arquitectura híbrida que capta dinámicamente una atención escasa solo cuando una columna vertebral de SSM es “incierta”, medida por la entropía de predicción. En comparación con los transformadores estándar, AMOR gana eficiencia al proyectar claves y valores de estados ocultos de SSM (Ghost KV), reutilizando el cálculo O(n) de SSM en lugar de requerir atención O(n^2) en cada capa. En tareas de recuperación sintética a pequeña escala, AMOR supera tanto las líneas base de solo SSM como las de solo transformador, logrando una precisión de recuperación perfecta y al mismo tiempo llamando la atención en solo el 22% de las posiciones. Validamos que la entropía de predicción señala de manera confiable la necesidad de recuperación, con una brecha de 1.09 nats (casi la mitad del rango de entropía) entre las posiciones de recuperación y locales. Además, nuestro enfoque proporciona computación adaptativa interpretable, donde las decisiones de enrutamiento pueden entenderse en términos de teoría de la información.
Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original
