Resumen: Hay dos enfoques principales para resolver los problemas de decisión de Markov (MDP): programación dinámica basada en la ecuación de Bellman y la programación lineal (LP). Los métodos de programación dinámica son los más utilizados y forman la base del aprendizaje de refuerzo clásico y moderno (RL). Por el contrario, los métodos basados en LP se han empleado con menos frecuencia, aunque recientemente han llamado la atención en contextos como fuera de línea RL. La infrautilización relativa de los métodos basados en LP se deriva del hecho de que conduce a un problema de optimización limitado por la desigualdad, que generalmente es más difícil de resolver de manera efectiva en comparación con los métodos basados en la ecuación de Bellman. El propósito de este documento es establecer una base teórica para resolver MDP basados en LP de una manera más efectiva y práctica. Nuestra idea clave es aprovechar la función de la barrera log, ampliamente utilizada en la optimización limitada por la desigualdad, para transformar la formulación LP del MDP en un problema de optimización sin restricciones. Esta reformulación permite que las soluciones aproximadas se obtengan fácilmente a través del descenso de gradiente. Si bien el método puede parecer simple, para lo mejor que podamos, aún no se ha desarrollado una interpretación teórica exhaustiva de este enfoque. Este documento tiene como objetivo cerrar esta brecha.
Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original
