Resumen: La fijación de precios dinámica en el comercio minorista requiere políticas que se adapten a la demanda cambiante y al mismo tiempo coordinen decisiones entre productos relacionados. Presentamos un estudio empírico sistemático de aprendizaje por refuerzo de múltiples agentes para la optimización de precios minoristas, comparando una línea de base MAPPO sólida con una variante aumentada de atención gráfica (MAPPO+GAT) que aprovecha las interacciones aprendidas entre productos. Utilizando un entorno de precios simulado derivado de datos de transacciones reales, evaluamos las ganancias, la estabilidad entre semillas aleatorias, la equidad entre productos y la eficiencia de la capacitación bajo un protocolo de evaluación estandarizado. Los resultados indican que MAPPO proporciona una base sólida y reproducible para el control de precios a nivel de cartera, y que MAPPO+GAT mejora aún más el rendimiento al compartir información sobre el gráfico del producto sin inducir una volatilidad excesiva de los precios. Estos resultados indican que MARL integrado en gráficos proporciona una solución más escalable y estable que los estudiantes independientes para precios minoristas dinámicos, ofreciendo ventajas prácticas en la toma de decisiones de múltiples productos.
Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original
