COMPASS: Mejora del razonamiento a largo plazo de los agentes con un contexto en evolución

Resumen: Las tareas de largo horizonte que requieren un razonamiento sostenido e interacciones de múltiples herramientas siguen siendo un desafío para los agentes de LLM: los pequeños errores se acumulan en los pasos, e incluso los modelos de última generación a menudo alucinan o pierden coherencia. Identificamos la gestión del contexto como el cuello de botella central: las historias extendidas hacen que los agentes pasen por alto evidencia crítica o se distraigan con información irrelevante, por lo que no pueden replanificar o reflexionar sobre errores anteriores. Para abordar esto, proponemos COMPASS (Sistema de planificación y estrategia de múltiples agentes organizado por contexto), un marco jerárquico liviano que separa la ejecución táctica, la supervisión estratégica y la organización del contexto en tres componentes especializados: (1) un agente principal que realiza razonamiento y uso de herramientas, (2) un metapensador que monitorea el progreso y emite intervenciones estratégicas, y (3) un administrador de contexto que mantiene informes de progreso concisos y relevantes para diferentes razonamientos. etapas. A través de tres desafiantes puntos de referencia (GAIA, BrowseComp y Humanity’s Last Exam), COMPASS mejora la precisión hasta en un 20% en relación con las líneas de base de un solo agente y de múltiples agentes. Además, presentamos una extensión de escalamiento en el momento de la prueba que eleva el rendimiento para que coincida con los agentes de DeepResearch establecidos y un proceso posterior a la capacitación que delega la gestión del contexto a modelos más pequeños para mejorar la eficiencia.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Transformando la industria farmacéutica comercial con IA agente

Ajuste de condiciones semánticas: fusión del contexto de gráficos con modelos de lenguaje grandes para completar gráficos de conocimiento

Qu redefine las operaciones de restaurantes con la industria de la industria Smart Kitchen integrando la inteligencia de energía y equipos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido