En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->COMPASS: Mejora del razonamiento a largo plazo de los agentes con un contexto en evolución

COMPASS: Mejora del razonamiento a largo plazo de los agentes con un contexto en evolución

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las tareas de largo horizonte que requieren un razonamiento sostenido e interacciones de múltiples herramientas siguen siendo un desafío para los agentes de LLM: los pequeños errores se acumulan en los pasos, e incluso los modelos de última generación a menudo alucinan o pierden coherencia. Identificamos la gestión del contexto como el cuello de botella central: las historias extendidas hacen que los agentes pasen por alto evidencia crítica o se distraigan con información irrelevante, por lo que no pueden replanificar o reflexionar sobre errores anteriores. Para abordar esto, proponemos COMPASS (Sistema de planificación y estrategia de múltiples agentes organizado por contexto), un marco jerárquico liviano que separa la ejecución táctica, la supervisión estratégica y la organización del contexto en tres componentes especializados: (1) un agente principal que realiza razonamiento y uso de herramientas, (2) un metapensador que monitorea el progreso y emite intervenciones estratégicas, y (3) un administrador de contexto que mantiene informes de progreso concisos y relevantes para diferentes razonamientos. etapas. A través de tres desafiantes puntos de referencia (GAIA, BrowseComp y Humanity’s Last Exam), COMPASS mejora la precisión hasta en un 20% en relación con las líneas de base de un solo agente y de múltiples agentes. Además, presentamos una extensión de escalamiento en el momento de la prueba que eleva el rendimiento para que coincida con los agentes de DeepResearch establecidos y un proceso posterior a la capacitación que delega la gestión del contexto a modelos más pequeños para mejorar la eficiencia.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web