En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->La coherencia se amplifica: cómo la variación del comportamiento influye en la precisión de los agentes

La coherencia se amplifica: cómo la variación del comportamiento influye en la precisión de los agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: A medida que los agentes basados ​​en LLM se implementan en sistemas de producción, comprender su coherencia de comportamiento (si producen secuencias de acción similares cuando se les asignan tareas idénticas) se vuelve fundamental para la confiabilidad. Estudiamos la coherencia en el contexto de SWE-bench, un desafiante punto de referencia de ingeniería de software que requiere un razonamiento complejo de varios pasos. Al comparar Claude~4.5~Sonnet, GPT-5 y Llama-3.1-70B en 50 ejecuciones cada uno (10 tareas $times$ 5 ejecuciones), encontramos que en todos los modelos, una mayor consistencia se alinea con una mayor precisión: Claude logra la varianza más baja (CV: 15,2%) y la mayor precisión (58%), GPT-5 es intermedia (CV: 32,2%, precisión: 32%), y Llama muestra la variación más alta (CV: 47,0%) con la precisión más baja (4%). Sin embargo, dentro de un modelo, la coherencia puede amplificar las interpretaciones tanto correctas como incorrectas. Nuestro análisis revela un matiz crítico: textbf{la coherencia amplifica los resultados en lugar de garantizar la corrección}. El 71% de los fracasos de Claude se deben a una “interpretación errónea constante”: hacer la misma suposición incorrecta en todas las ejecuciones. Curiosamente, GPT-5 logra un acuerdo estratégico temprano similar al de Claude (divergiendo en el paso 3.4 versus 3.2) pero exhibe una variación 2.1$times$ mayor, lo que sugiere que el momento de la divergencia por sí solo no determina la consistencia. Estos hallazgos sugieren que para la implementación de producción, la precisión de la interpretación es más importante que la coherencia de la ejecución, lo que tiene implicaciones para la evaluación y la capacitación de los agentes.

Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web