Cuándo olvidar: una primitiva de gobernanza de la memoria

Resumen: Los sistemas de memoria de agentes acumulan experiencia, pero actualmente carecen de una métrica operativa basada en principios para la gobernanza de la calidad de la memoria: decidir en qué memorias confiar, suprimir o desaprobar a medida que cambia la distribución de tareas del agente. Las puntuaciones de importancia en el momento de la escritura son estáticas; Los sistemas de gestión dinámica utilizan el juicio LLM o heurísticas estructurales en lugar de retroalimentación de resultados. Este artículo propone Memory Worth (MW): una señal de dos contadores por memoria que rastrea la frecuencia con la que un recuerdo coexiste con resultados exitosos versus fallidos, proporcionando una base ligera y teóricamente fundamentada para la detección de estancamiento, la supresión de la recuperación y las decisiones de desaprobación. Probamos que MW converge casi con seguridad a la probabilidad de éxito condicional p+(m) = Pr[y_t = +1 | m en M_t] – la probabilidad de éxito de la tarea dado que se recupera la memoria m – bajo un régimen de recuperación estacionario con una condición de exploración mínima. Es importante destacar que p+(m) es una cantidad asociativa, no causal: mide la coocurrencia de resultados en lugar de la contribución causal. Argumentamos que esto sigue siendo una señal operativa útil para la gobernanza de la memoria y la validamos empíricamente en un entorno sintético controlado donde se conoce la utilidad real: después de 10.000 episodios, la correlación de rango de Spearman entre el valor de la memoria y las utilidades verdaderas alcanza rho = 0,89 +/- 0,02 en 20 semillas independientes, en comparación con rho = 0,00 para sistemas que nunca actualizan sus evaluaciones. Un microexperimento de recuperación realista con texto real y recuperación de incrustación neuronal (todo MiniLM-L6-v2) muestra además recuerdos obsoletos que cruzan el umbral de bajo valor (MW = 0,17), mientras que los recuerdos especializados siguen siendo de alto valor (MW = 0,77) a lo largo de 3000 episodios. El estimador requiere solo dos contadores escalares por unidad de memoria y se puede agregar a arquitecturas que ya registran recuperaciones y resultados de episodios.

Publicado originalmente en export.arxiv.org el 14 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El precio del significado: por qué todo sistema de memoria semántica olvida

Atención dispersa cerrada: combinación de eficiencia computacional con estabilidad de entrenamiento para modelos de lenguaje de contexto largo

Esta startup facilita el acceso a las instalaciones de rehabilitación

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido