En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Destilación estructurada para memoria de agente personalizada: reducción de tokens 11x con preservación de recuperación

Destilación estructurada para memoria de agente personalizada: reducción de tokens 11x con preservación de recuperación

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Las largas conversaciones con un agente de IA crean un problema simple para un usuario: el historial es útil, pero llevarlo palabra por palabra es costoso. Estudiamos la memoria personalizada del agente: el historial de conversaciones de un usuario con un agente, destilado en una capa de recuperación compacta para una búsqueda posterior. Cada intercambio se comprime en un objeto compuesto con cuatro campos (núcleo_intercambio, contexto_específico, asignaciones_de_habitación temáticas y archivos_tocados extraídos con expresiones regulares). El texto destilado con capacidad de búsqueda tiene un promedio de 38 tokens por intercambio. Aplicado a 4182 conversaciones (14340 intercambios) de 6 proyectos de ingeniería de software, el método reduce la duración promedio del intercambio de 371 a 38 tokens, lo que produce una compresión 11 veces mayor. Evaluamos si el recuerdo personalizado sobrevive a esa compresión utilizando 201 consultas orientadas al recuerdo, 107 configuraciones que abarcan 5 modos de búsqueda pura y 5 entre capas, y 5 calificadores de LLM (214,519 pares de consulta-resultado calificados por consenso). La mejor configuración destilada pura alcanza el 96% del mejor MRR literal (0,717 frente a 0,745). Los resultados dependen del mecanismo. Las 20 configuraciones de búsqueda vectorial siguen siendo no significativas después de la corrección de Bonferroni, mientras que las 20 configuraciones de BM25 se degradan significativamente (tamaños del efecto |d|=0,031-0,756). La mejor configuración entre capas supera ligeramente la mejor línea de base textual pura (MRR 0,759). La destilación estructurada comprime la memoria del agente de un solo usuario sin sacrificar uniformemente la calidad de la recuperación. A 1/11 del costo del contexto, miles de intercambios caben en un solo mensaje mientras la fuente palabra por palabra permanece disponible para su análisis detallado. Lanzamos el proceso de implementación y análisis como software de código abierto.

Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web