Bench de objetivos: evaluación de sesgos de toma de decisiones de Agentic LLM como gerente de inventario

Resumen: Los avances recientes en el razonamiento matemático y las capacidades de planificación a largo plazo de los grandes modelos de idiomas (LLM) han precipitado el desarrollo de agentes, que se están aprovechando cada vez más en los procesos de operaciones comerciales. Los modelos de decisión para optimizar los niveles de inventario son uno de los elementos centrales de la gestión de operaciones. Sin embargo, las capacidades del agente de LLM para tomar decisiones de inventario en contextos inciertos, así como los sesgos de toma de decisiones (por ejemplo, efecto de encuadre, etc.) del agente, permanecen en gran medida inexplorados. Esto provoca preocupaciones con respecto a la capacidad de los agentes de LLM para abordar efectivamente los problemas del mundo real, así como las posibles implicaciones de los sesgos que pueden estar presentes. Para abordar esta brecha, presentamos AIM Bench, un nuevo punto de referencia diseñado para evaluar el comportamiento de toma de decisiones de los agentes de LLM en escenarios inciertos de gestión de la cadena de suministro a través de una serie diversa de experimentos de reposición de inventario. Nuestros resultados revelan que diferentes LLM típicamente exhiben grados variables de sesgo de decisión que son similares a los observados en los seres humanos. Además, exploramos estrategias para mitigar el efecto de atracción y el efecto látigo, a saber, la reflexión cognitiva y la implementación del intercambio de información. Estos hallazgos subrayan la necesidad de una cuidadosa consideración de los sesgos potenciales en la implementación de LLM en escenarios de toma de decisiones de inventario. Esperamos que estas ideas allanen el camino para mitigar el sesgo de decisión humana y desarrollar sistemas de apoyo a la decisión centrados en humanos para las cadenas de suministro.

Publicado Originalme en export.arxiv.org El 17 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Manalyzer: metaanálisis automatizado de extremo a extremo con sistema de agentes múltiples

Exploración segura de acciones novedosas en sistemas de recomendación mediante el aprendizaje de políticas con implementación eficiente

Abre las puertas de la bahía de Pod, Claude

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido