En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->CEO-Bench: ¿Pueden los agentes jugar a largo plazo?

CEO-Bench: ¿Pueden los agentes jugar a largo plazo?

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes del modelo de lenguaje se están convirtiendo en ejecutores competentes en tareas aisladas y de corto horizonte, como la ingeniería de software y el servicio al cliente. Sin embargo, los desafíos del mundo real requieren una combinación de habilidades sofisticadas que en gran medida aún no se han probado en los agentes: (1) navegar por largos horizontes en medio de la incertidumbre; (2) adquirir información en entornos ruidosos; (3) adaptarse a un mundo cambiante; (4) orquestar múltiples partes móviles hacia un objetivo coherente. Presentamos CEO-Bench, que evalúa estas capacidades en conjunto simulando una tarea representativa del mundo real: operar una startup durante 500 días. Un agente gestiona precios, marketing, presupuestos y muchos otros aspectos de una empresa ficticia a través de una interfaz Python programable, opera en el mismo entorno y enfrenta los mismos desafíos que un director ejecutivo humano. El éxito exige analizar bases de datos comerciales ruidosas e interconectadas, traducir señales en estrategias sólidas y coordinar muchas decisiones con la programación. Los agentes más fuertes escriben códigos sofisticados que simulan cohortes de clientes para pronosticar el efectivo futuro y minan el historial de negociaciones para descubrir preferencias ocultas de los clientes. Aun así, la mayoría de los modelos más modernos tienen dificultades en este entorno. Solo Claude Opus 4.8 y GPT-5.5 terminan por encima del saldo inicial de $ 1 millón, y ninguno genera ganancias de manera constante. CEO-Bench da un primer paso para medir la inteligencia necesaria para impulsar un progreso adaptable y sostenido a lo largo del tiempo.

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web