Más allá de la finalización: sondeo del seguimiento del estado acumulativo para predecir el rendimiento del agente LLM

Resumen:La tasa de finalización de tareas es el indicador estándar de la capacidad del agente LLM, pero los modelos con puntuaciones de finalización idénticas pueden diferir sustancialmente en su capacidad para rastrear el estado intermedio. Presentamos la manipulación activa de fidelidad de la memoria de trabajo (WMF-AM), una sonda calibrada sin scratchpad de seguimiento de estado aritmético acumulativo, y la evaluamos en 20 modelos de peso abierto (0.5B-35B, 13 familias) frente a una batería determinista de 10 agentes de tareas publicada. En un análisis preespecificado y corregido por Bonferroni, WMF-AM predice el desempeño del agente con tau de Kendall = 0,612 (p < 0,001, IC del 95 % [0,360, 0,814]); Los análisis exploratorios de tau parcial sugieren que esta señal persiste después de controlar la puntuación de finalización y la escala del modelo. Tres ablaciones de aislamiento de construcción (control K = 1, techo no aritmético, cancelación con yugo) respaldan la interpretación de que el seguimiento del estado acumulativo bajo carga, en lugar de la aritmética de un solo paso o el seguimiento de entidades por sí solo, es la principal fuente de dificultad. La calibración K mantiene la sonda en un rango discriminativo donde los puntos de referencia de profundidad fija anteriores se vuelven no discriminatorios; la generalización más allá de esta muestra de peso abierto permanece abierta.

Publicado originalmente en export.arxiv.org el 30 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Serie de seminarios web-globales (14 y 16 de mayo 2025)

Ester Fritsch, Irina Shklovski y Rachel Douglas-Jones: Pidiendo una revolución: un análisis de los manifiestos IoT

Arquitecturas de memoria continua para agentes LLM de largo horizonte

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido