Resumen: Los modelos de lenguajes grandes (LLM) han permitido sistemas agentes que pueden razonar, planificar y actuar en tareas complejas, pero aún no está claro si pueden asignar recursos de manera efectiva en condiciones de incertidumbre. A diferencia de las decisiones reactivas a corto plazo, la asignación requiere comprometer recursos escasos a lo largo del tiempo y al mismo tiempo equilibrar objetivos en competencia y preservar la flexibilidad para necesidades futuras. Presentamos EnterpriseArena, el primer punto de referencia para evaluar agentes en la asignación de recursos empresariales a largo plazo. Instancia la toma de decisiones al estilo de un director financiero en un simulador empresarial de 132 meses que combina datos financieros a nivel de empresa, documentos comerciales anónimos, señales macroeconómicas y de la industria, y reglas operativas validadas por expertos. El entorno es parcialmente observable y revela el estado sólo a través de herramientas organizativas presupuestadas, lo que obliga a los agentes a sacrificar la adquisición de información por la conservación de recursos escasos. Los experimentos en once LLM avanzados muestran que esta configuración sigue siendo un gran desafío: solo el 16% de las ejecuciones sobreviven todo el horizonte y los modelos más grandes no superan de manera confiable a los más pequeños. Estos resultados identifican la asignación de recursos a largo plazo bajo incertidumbre como una clara brecha de capacidad para los agentes LLM actuales.
Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original
