CEO-Bench: ¿Pueden los agentes jugar a largo plazo?

Resumen: Los agentes del modelo de lenguaje se están convirtiendo en ejecutores competentes en tareas aisladas y de corto horizonte, como la ingeniería de software y el servicio al cliente. Sin embargo, los desafíos del mundo real requieren una combinación de habilidades sofisticadas que en gran medida aún no se han probado en los agentes: (1) navegar por largos horizontes en medio de la incertidumbre; (2) adquirir información en entornos ruidosos; (3) adaptarse a un mundo cambiante; (4) orquestar múltiples partes móviles hacia un objetivo coherente. Presentamos CEO-Bench, que evalúa estas capacidades en conjunto simulando una tarea representativa del mundo real: operar una startup durante 500 días. Un agente gestiona precios, marketing, presupuestos y muchos otros aspectos de una empresa ficticia a través de una interfaz Python programable, opera en el mismo entorno y enfrenta los mismos desafíos que un director ejecutivo humano. El éxito exige analizar bases de datos comerciales ruidosas e interconectadas, traducir señales en estrategias sólidas y coordinar muchas decisiones con la programación. Los agentes más fuertes escriben códigos sofisticados que simulan cohortes de clientes para pronosticar el efectivo futuro y minan el historial de negociaciones para descubrir preferencias ocultas de los clientes. Aun así, la mayoría de los modelos más modernos tienen dificultades en este entorno. Solo Claude Opus 4.8 y GPT-5.5 terminan por encima del saldo inicial de $ 1 millón, y ninguno genera ganancias de manera constante. CEO-Bench da un primer paso para medir la inteligencia necesaria para impulsar un progreso adaptable y sostenido a lo largo del tiempo.

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Métodos estadísticos en IA generativa

Aumenta para medir la distribución local en redes

Tableratero: Marco de razonamiento de la tabla avanzada con modelos de idiomas grandes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido