En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Análisis de la solución de programación lineal aproximada al problema de decisión de Markov con la función de barrera de registro

Análisis de la solución de programación lineal aproximada al problema de decisión de Markov con la función de barrera de registro

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Hay dos enfoques principales para resolver los problemas de decisión de Markov (MDP): programación dinámica basada en la ecuación de Bellman y la programación lineal (LP). Los métodos de programación dinámica son los más utilizados y forman la base del aprendizaje de refuerzo clásico y moderno (RL). Por el contrario, los métodos basados ​​en LP se han empleado con menos frecuencia, aunque recientemente han llamado la atención en contextos como fuera de línea RL. La infrautilización relativa de los métodos basados ​​en LP se deriva del hecho de que conduce a un problema de optimización limitado por la desigualdad, que generalmente es más difícil de resolver de manera efectiva en comparación con los métodos basados ​​en la ecuación de Bellman. El propósito de este documento es establecer una base teórica para resolver MDP basados ​​en LP de una manera más efectiva y práctica. Nuestra idea clave es aprovechar la función de la barrera log, ampliamente utilizada en la optimización limitada por la desigualdad, para transformar la formulación LP del MDP en un problema de optimización sin restricciones. Esta reformulación permite que las soluciones aproximadas se obtengan fácilmente a través del descenso de gradiente. Si bien el método puede parecer simple, para lo mejor que podamos, aún no se ha desarrollado una interpretación teórica exhaustiva de este enfoque. Este documento tiene como objetivo cerrar esta brecha.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web