Donde los agentes de LLM fallan y cómo pueden aprender de los fracasos

Resumen: Los agentes del Modelo de lenguaje grande (LLM), que integran módulos de planificación, memoria, reflexión y uso de herramientas, han demostrado ser prometedoras para resolver tareas complejas de múltiples pasos. Sin embargo, sus arquitecturas sofisticadas amplifican la vulnerabilidad a las fallas en cascada, donde un error de causa raíz se propaga a través de decisiones posteriores, lo que lleva a la falla de la tarea. Los sistemas actuales carecen de un marco que pueda comprender de manera integral el error del agente de manera modular y sistémica y, por lo tanto, no puede detectar estos errores en consecuencia. Abordamos esta brecha con tres contribuciones. Primero, presentamos el Agenterrortaxonomy, una clasificación modular de los modos de falla que abarcan la memoria, la reflexión, la planificación, la acción y las operaciones a nivel de sistema. En segundo lugar, construimos AgenterrorBench, el primer conjunto de datos de las trayectorias de falla anotadas sistemáticamente de Alfworld, Gaia y Webshop, análisis de errores de base en despliegue de agentes del mundo real. En tercer lugar, proponemos AgentDebug, un marco de depuración que aísla las fallas de causa raíz y proporciona retroalimentación correctiva, lo que permite a los agentes recuperarse y mejorar iterativamente. Los experimentos en AgenterrorBench muestran que AgentDebug logra un 24% de precisión totalmente correcta y una precisión de paso 17% más alta en comparación con la línea de base más fuerte. Más allá de la detección, la retroalimentación específica generada por AgentDebug permite a los agentes de LLM recuperarse iterativamente de fallas, produciendo hasta un 26% de mejoras relativas en el éxito de las tareas en Alfworld, Gaia y WebShop. Estos resultados establecen la depuración de principios como una vía de agentes LLM más confiables y adaptables. El código y los datos estarán disponibles en esta URL HTTPS

Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Relación médica inversa-AI: diagnóstico clínico de proceso completo impulsado por un modelo de lenguaje grande

Conozca la junta directiva de IEEE

QuickMerge ++: Fusión de token rápido con Autorregressive Prior

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido