La coherencia se amplifica: cómo la variación del comportamiento influye en la precisión de los agentes

Resumen: A medida que los agentes basados en LLM se implementan en sistemas de producción, comprender su coherencia de comportamiento (si producen secuencias de acción similares cuando se les asignan tareas idénticas) se vuelve fundamental para la confiabilidad. Estudiamos la coherencia en el contexto de SWE-bench, un desafiante punto de referencia de ingeniería de software que requiere un razonamiento complejo de varios pasos. Al comparar Claude~4.5~Sonnet, GPT-5 y Llama-3.1-70B en 50 ejecuciones cada uno (10 tareas $times$ 5 ejecuciones), encontramos que en todos los modelos, una mayor consistencia se alinea con una mayor precisión: Claude logra la varianza más baja (CV: 15,2%) y la mayor precisión (58%), GPT-5 es intermedia (CV: 32,2%, precisión: 32%), y Llama muestra la variación más alta (CV: 47,0%) con la precisión más baja (4%). Sin embargo, dentro de un modelo, la coherencia puede amplificar las interpretaciones tanto correctas como incorrectas. Nuestro análisis revela un matiz crítico: textbf{la coherencia amplifica los resultados en lugar de garantizar la corrección}. El 71% de los fracasos de Claude se deben a una “interpretación errónea constante”: hacer la misma suposición incorrecta en todas las ejecuciones. Curiosamente, GPT-5 logra un acuerdo estratégico temprano similar al de Claude (divergiendo en el paso 3.4 versus 3.2) pero exhibe una variación 2.1$times$ mayor, lo que sugiere que el momento de la divergencia por sí solo no determina la consistencia. Estos hallazgos sugieren que para la implementación de producción, la precisión de la interpretación es más importante que la coherencia de la ejecución, lo que tiene implicaciones para la evaluación y la capacitación de los agentes.

Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Una taxonomía naciente del aprendizaje automático en la automatización inteligente de procesos robóticos

Respuesta de la AIOTI a la consulta sobre la Ley de Ciberseguridad (CA)

PublicAgent: principios de diseño de agentes múltiples a partir de un marco de análisis de datos abiertos basado en LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido