En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Cuándo olvidar: una primitiva de gobernanza de la memoria

Cuándo olvidar: una primitiva de gobernanza de la memoria

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los sistemas de memoria de agentes acumulan experiencia, pero actualmente carecen de una métrica operativa basada en principios para la gobernanza de la calidad de la memoria: decidir en qué memorias confiar, suprimir o desaprobar a medida que cambia la distribución de tareas del agente. Las puntuaciones de importancia en el momento de la escritura son estáticas; Los sistemas de gestión dinámica utilizan el juicio LLM o heurísticas estructurales en lugar de retroalimentación de resultados. Este artículo propone Memory Worth (MW): una señal de dos contadores por memoria que rastrea la frecuencia con la que un recuerdo coexiste con resultados exitosos versus fallidos, proporcionando una base ligera y teóricamente fundamentada para la detección de estancamiento, la supresión de la recuperación y las decisiones de desaprobación. Probamos que MW converge casi con seguridad a la probabilidad de éxito condicional p+(m) = Pr[y_t = +1 | m en M_t] – la probabilidad de éxito de la tarea dado que se recupera la memoria m – bajo un régimen de recuperación estacionario con una condición de exploración mínima. Es importante destacar que p+(m) es una cantidad asociativa, no causal: mide la coocurrencia de resultados en lugar de la contribución causal. Argumentamos que esto sigue siendo una señal operativa útil para la gobernanza de la memoria y la validamos empíricamente en un entorno sintético controlado donde se conoce la utilidad real: después de 10.000 episodios, la correlación de rango de Spearman entre el valor de la memoria y las utilidades verdaderas alcanza rho = 0,89 +/- 0,02 en 20 semillas independientes, en comparación con rho = 0,00 para sistemas que nunca actualizan sus evaluaciones. Un microexperimento de recuperación realista con texto real y recuperación de incrustación neuronal (todo MiniLM-L6-v2) muestra además recuerdos obsoletos que cruzan el umbral de bajo valor (MW = 0,17), mientras que los recuerdos especializados siguen siendo de alto valor (MW = 0,77) a lo largo de 3000 episodios. El estimador requiere solo dos contadores escalares por unidad de memoria y se puede agregar a arquitecturas que ya registran recuperaciones y resultados de episodios.

Publicado originalmente en export.arxiv.org el 14 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web