Resumen: Los agentes del modelo de lenguaje se están convirtiendo en ejecutores competentes en tareas aisladas y de corto horizonte, como la ingeniería de software y el servicio al cliente. Sin embargo, los desafíos del mundo real requieren una combinación de habilidades sofisticadas que en gran medida aún no se han probado en los agentes: (1) navegar por largos horizontes en medio de la incertidumbre; (2) adquirir información en entornos ruidosos; (3) adaptarse a un mundo cambiante; (4) orquestar múltiples partes móviles hacia un objetivo coherente. Presentamos CEO-Bench, que evalúa estas capacidades en conjunto simulando una tarea representativa del mundo real: operar una startup durante 500 días. Un agente gestiona precios, marketing, presupuestos y muchos otros aspectos de una empresa ficticia a través de una interfaz Python programable, opera en el mismo entorno y enfrenta los mismos desafíos que un director ejecutivo humano. El éxito exige analizar bases de datos comerciales ruidosas e interconectadas, traducir señales en estrategias sólidas y coordinar muchas decisiones con la programación. Los agentes más fuertes escriben códigos sofisticados que simulan cohortes de clientes para pronosticar el efectivo futuro y minan el historial de negociaciones para descubrir preferencias ocultas de los clientes. Aun así, la mayoría de los modelos más modernos tienen dificultades en este entorno. Solo Claude Opus 4.8 y GPT-5.5 terminan por encima del saldo inicial de $ 1 millón, y ninguno genera ganancias de manera constante. CEO-Bench da un primer paso para medir la inteligencia necesaria para impulsar un progreso adaptable y sostenido a lo largo del tiempo.
Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original
