Resumen: La mayoría de los enfoques existentes de modelos de lenguaje grande (LLM) mejorados con memoria asumen implícitamente que la validez de la memoria se puede establecer a través de evaluadores externos que proporcionan señales de éxito específicas de la tarea o mediante modelos cognitivos internos, como la reflexión, para editar entradas de memoria. Sin embargo, estos supuestos a menudo fracasan en entornos prácticos con derivas dinámicas. Proponemos el Verificador Global (GLOVE), un marco que introduce una nueva dimensión de diseño para los sistemas de memoria LLM al establecer una noción relativa de verdad. A través de un sondeo activo para detectar inconsistencias entre los recuerdos recuperados y las observaciones recientes, GLOVE permite la realineación del entorno de la memoria verificando y actualizando la memoria sin acceso a una supervisión de la verdad sobre el terreno o una fuerte dependencia de la introspección del modelo. Evaluamos GLOVE en diversos puntos de referencia que abarcan la navegación web, la planificación y el control, aumentados con derivas ambientales controladas que introducen no estacionariedad más allá de las configuraciones de referencia originales. Nuestros resultados muestran que GLOVE mejora sustancialmente las tasas de éxito de los agentes, lo que sugiere un camino sólido hacia agentes cognitivos capaces de autoevolucionar.
Publicado originalmente en export.arxiv.org el 27 de enero de 2026.
Ver fuente original
