Mirror: múltiples agentes intra e inter-reflexión para un razonamiento optimizado en el aprendizaje de herramientas

Resumen: Las tareas complejas que involucran la integración de herramientas plantean desafíos significativos para modelos de idiomas grandes (LLM), lo que lleva a la aparición de flujos de trabajo de múltiples agentes como una solución prometedora. La reflexión ha surgido como una estrategia efectiva para corregir trayectorias erróneas en los flujos de trabajo de agente. Sin embargo, los enfoques existentes solo explotan dicha capacidad en la etapa posterior a la acción, donde el agente observa los resultados de ejecución. Argumentamos que, al igual que los humanos, los LLM también pueden participar en la reflexión antes de la ejecución de la acción: el agente puede anticipar resultados indeseables de sus propias decisiones, que no solo proporciona una perspectiva necesariamente complementaria para evaluar la decisión, sino que también evita la propagación de errores a lo largo de la trayectoria. En este documento, proponemos Mirror, un marco que consiste en la intreflección, lo que evalúa críticamente las acciones previstas antes de la ejecución e inter-reflexión, que ajusta aún más la trayectoria basada en las observaciones. Este diseño aprovecha sistemáticamente las capacidades de reflexión de LLM para eliminar y rectificar acciones erróneas en un alcance más integral. Las evaluaciones tanto en los puntos de referencia Stabletoolbench y TravelPlanner demuestran el rendimiento superior de Mirror, logrando resultados de última generación en comparación con los enfoques existentes.

Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Puede la IA ser responsable?

Más allá de las recompensas monolíticas: una optimización de recompensas híbrida y de múltiples aspectos para la alineación de MLLM

Razonamiento LLM controlable mediante dirección basada en codificador automático disperso

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido