Resumen:La tasa de finalización de tareas es el indicador estándar de la capacidad del agente LLM, pero los modelos con puntuaciones de finalización idénticas pueden diferir sustancialmente en su capacidad para rastrear el estado intermedio. Presentamos la manipulación activa de fidelidad de la memoria de trabajo (WMF-AM), una sonda calibrada sin scratchpad de seguimiento de estado aritmético acumulativo, y la evaluamos en 20 modelos de peso abierto (0.5B-35B, 13 familias) frente a una batería determinista de 10 agentes de tareas publicada. En un análisis preespecificado y corregido por Bonferroni, WMF-AM predice el desempeño del agente con tau de Kendall = 0,612 (p < 0,001, IC del 95 % [0,360, 0,814]); Los análisis exploratorios de tau parcial sugieren que esta señal persiste después de controlar la puntuación de finalización y la escala del modelo. Tres ablaciones de aislamiento de construcción (control K = 1, techo no aritmético, cancelación con yugo) respaldan la interpretación de que el seguimiento del estado acumulativo bajo carga, en lugar de la aritmética de un solo paso o el seguimiento de entidades por sí solo, es la principal fuente de dificultad. La calibración K mantiene la sonda en un rango discriminativo donde los puntos de referencia de profundidad fija anteriores se vuelven no discriminatorios; la generalización más allá de esta muestra de peso abierto permanece abierta.
Publicado originalmente en export.arxiv.org el 30 de marzo de 2026.
Ver fuente original
