Resumen: Los flujos de trabajo de agente, donde múltiples instancias de Múltiples del modelo de lenguaje grande (LLM) interactúan para resolver tareas, se basan cada vez más en los mecanismos de retroalimentación, donde un modelo evalúa y critica a otro. A pesar de la promesa de una mejora basada en retroalimentación, la estabilidad de los flujos de trabajo de agente se basa en la confiabilidad del juez. Sin embargo, los jueces pueden alucinar la información, exhibir sesgo o actuar adversarmente, introduciendo vulnerabilidades críticas en el flujo de trabajo. En este trabajo, presentamos un análisis sistemático de flujos de trabajo de agente bajo retroalimentación engañosa o engañosa. Introducimos un marco bidimensional para analizar el comportamiento del juez, a lo largo de los ejes de intención (de constructivos a maliciosos) y el conocimiento (de los sistemas paramétricos solo hasta la recuperación de los sistemas). Utilizando esta taxonomía, construimos un conjunto de comportamientos de juez y desarrollamos Wafer-Qa, un nuevo punto de referencia con críticas basadas en evidencia web recuperada para evaluar la solidez de los flujos de trabajo de agente contra la retroalimentación adversaria con apoyo fácticamente. Revelamos que incluso los agentes más fuertes son vulnerables a las críticas persuasivas pero defectuosas, a menudo cambiando las respuestas correctas después de una sola ronda de comentarios engañosos. Dando un paso más allá, estudiamos cómo las predicciones del modelo evolucionan en múltiples rondas de interacción, revelando distintos patrones de comportamiento entre los modelos de razonamiento y no razonantes. Nuestros hallazgos destacan las vulnerabilidades fundamentales en los flujos de trabajo basados en retroalimentación y ofrecen orientación para construir sistemas de agente más sólidos.
Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original