Resumen: Hay dos enfoques principales para resolver los problemas de decisión de Markov (MDP): programación dinámica basada en la ecuación de Bellman y la programación lineal (LP). Los métodos de programación dinámica son los más utilizados y forman la base del aprendizaje de refuerzo clásico y moderno (RL). Por el contrario, los métodos basados en LP se han empleado con menos frecuencia, aunque recientemente han llamado la atención en contextos como fuera de línea RL. La infrautilización relativa de los métodos basados en LP se deriva del hecho de que conduce a un problema de optimización limitado por la desigualdad, que generalmente es más difícil de resolver de manera efectiva en comparación con los métodos basados en la ecuación de Bellman. El propósito de este documento es establecer una base teórica para resolver MDP basados en LP de una manera más efectiva y práctica. Nuestra idea clave es aprovechar la función de la barrera log, ampliamente utilizada en la optimización limitada por la desigualdad, para transformar la formulación LP del MDP en un problema de optimización sin restricciones. Esta reformulación permite que las soluciones aproximadas se obtengan fácilmente a través del descenso de gradiente. Si bien el método puede parecer simple, para lo mejor que podamos, aún no se ha desarrollado una interpretación teórica exhaustiva de este enfoque. Este documento tiene como objetivo cerrar esta brecha.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

Análisis de la solución de programación lineal aproximada al problema de decisión de Markov con la función de barrera de registro

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Conferencia científica del 30 aniversario de EMA: medicamentos, regulación y el futuro

Aumenta para medir la distribución local en redes

Linux Foundation anuncia la intención de lanzar la Fundación React

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido