¿Pueden los agentes de LLM ser directores financieros? Un punto de referencia para la asignación de recursos en entornos empresariales dinámicos

Resumen: Los modelos de lenguajes grandes (LLM) han permitido sistemas agentes que pueden razonar, planificar y actuar en tareas complejas, pero aún no está claro si pueden asignar recursos de manera efectiva en condiciones de incertidumbre. A diferencia de las decisiones reactivas a corto plazo, la asignación requiere comprometer recursos escasos a lo largo del tiempo y al mismo tiempo equilibrar objetivos en competencia y preservar la flexibilidad para necesidades futuras. Presentamos EnterpriseArena, el primer punto de referencia para evaluar agentes en la asignación de recursos empresariales a largo plazo. Instancia la toma de decisiones al estilo de un director financiero en un simulador empresarial de 132 meses que combina datos financieros a nivel de empresa, documentos comerciales anónimos, señales macroeconómicas y de la industria, y reglas operativas validadas por expertos. El entorno es parcialmente observable y revela el estado sólo a través de herramientas organizativas presupuestadas, lo que obliga a los agentes a sacrificar la adquisición de información por la conservación de recursos escasos. Los experimentos en once LLM avanzados muestran que esta configuración sigue siendo un gran desafío: solo el 16% de las ejecuciones sobreviven todo el horizonte y los modelos más grandes no superan de manera confiable a los más pequeños. Estos resultados identifican la asignación de recursos a largo plazo bajo incertidumbre como una clara brecha de capacidad para los agentes LLM actuales.

Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La IA apunta a la navegación autónoma en silla de ruedas

Inphyre descubre: los grandes modelos multimodales luchan en el razonamiento físico inductivo

SIGNO: Juegos inducidos por esquemas para nombrar

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido