En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aeon: Gestión de la memoria neurosimbólica de alto rendimiento para agentes LLM de largo horizonte

Aeon: Gestión de la memoria neurosimbólica de alto rendimiento para agentes LLM de largo horizonte

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLM) están fundamentalmente limitados por el costo computacional cuadrático de la autoatención y el fenómeno “Perdido en el medio”, donde las capacidades de razonamiento se degradan a medida que se expanden las ventanas de contexto. Las soluciones existentes, principalmente las arquitecturas “Flat RAG” que se basan en bases de datos vectoriales, tratan la memoria como una bolsa de incrustaciones no estructurada. Este enfoque no logra capturar la estructura jerárquica y temporal de las interacciones de largo horizonte, lo que lleva a “Vector Haze”, la recuperación de hechos inconexos que carecen de continuidad episódica. Proponemos Aeon, un sistema operativo cognitivo neurosimbólico que redefine la memoria no como un almacén estático, sino como un recurso del sistema operativo administrado. Aeon estructura la memoria en un Palacio de la Memoria (un índice espacial implementado a través de Atlas, un índice vectorial agrupado en páginas acelerado por SIMD que combina la navegación de gráficos de mundos pequeños con una localidad de disco estilo árbol B+ para minimizar la amplificación de lectura) y un Trazo (un gráfico episódico neurosimbólico). Presentamos el Semantic Lookaside Buffer (SLB), un mecanismo de almacenamiento en caché predictivo que explota la localidad conversacional para lograr latencias de recuperación inferiores a milisegundos. Los puntos de referencia demuestran que Aeon logra una latencia de recuperación < 1 ms en cargas de trabajo conversacionales al tiempo que garantiza la coherencia del estado a través de un puente C++/Python de copia cero, lo que permite de manera efectiva una memoria estructurada y persistente para agentes autónomos.

Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web