Resumen: El aprendizaje de refuerzo (RL) generalmente modela la interacción entre el agente y el entorno como un proceso de decisión de Markov (MDP), donde las recompensas que guían el comportamiento del agente siempre son observables. Sin embargo, en muchos escenarios del mundo real, las recompensas no siempre son observables, que pueden modelarse como un proceso de decisión de Markov monitoreado (MON-MDP). El trabajo previo en MON-MDPS se ha limitado a casos simples y tabulares, restringiendo su aplicabilidad a los problemas del mundo real. Este trabajo explora Mon-MDP utilizando la aproximación de funciones (FA) e investiga los desafíos involucrados. Mostramos que la aproximación de la función de combinación con un modelo de recompensa aprendido permite a los agentes generalizar de los estados monitoreados con recompensas observables, a estados ambientales no supervisados con recompensas no observables. Por lo tanto, demostramos que dicha generalización con un modelo de recompensa logra políticas casi óptimas en entornos formalmente definidos como insoluble. Sin embargo, identificamos una limitación crítica de dicha aproximación de la función, donde los agentes extrapolan incorrectamente las recompensas debido a la sobregeneralización, lo que resulta en comportamientos indeseables. Para mitigar la generalización excesiva, proponemos un método de optimización policial cauteloso aprovechando la incertidumbre de la recompensa. Este trabajo sirve como un paso para cerrar esta brecha entre la teoría Mon-MDP y las aplicaciones del mundo real.
Publicado Originalme en rss.arxiv.org El 14 de mayo de 2025.
Ver Fuente Original