Resumen: Los sistemas secuenciales multiagente construidos con grandes modelos de lenguaje (LLM) pueden automatizar tareas de software complejas, pero es difícil confiar en ellos porque los errores pasan silenciosamente de una etapa a la siguiente. Estudiamos un proceso rastreable y responsable, es decir, un sistema con funciones claras, traspasos estructurados y registros guardados que nos permiten rastrear quién hizo qué en cada paso y asignar culpas cuando las cosas salen mal. Nuestra configuración es Planificador -> Ejecutor -> Canalización de críticos. Evaluamos ocho configuraciones de tres LLM de última generación en tres puntos de referencia y analizamos dónde comienzan los errores, cómo se propagan y cómo se pueden solucionar. Nuestros resultados muestran: (1) agregar un traspaso estructurado y responsable entre agentes mejora notablemente la precisión y previene las fallas comunes en tuberías simples; (2) los modelos tienen fortalezas y riesgos claros específicos de cada función (p. ej., planificación constante frente a críticas de alta variación), que cuantificamos con tasas de reparación y daños; y (3) las compensaciones entre precisión, costo y latencia dependen de la tarea, siendo las canalizaciones heterogéneas las más eficientes. En general, proporcionamos un método práctico basado en datos para diseñar, rastrear y depurar sistemas multiagente confiables, predecibles y responsables.
Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original