Generalización en procesos de decisión de Markov monitoreados (MON-MDPS)

Resumen: El aprendizaje de refuerzo (RL) generalmente modela la interacción entre el agente y el entorno como un proceso de decisión de Markov (MDP), donde las recompensas que guían el comportamiento del agente siempre son observables. Sin embargo, en muchos escenarios del mundo real, las recompensas no siempre son observables, que pueden modelarse como un proceso de decisión de Markov monitoreado (MON-MDP). El trabajo previo en MON-MDPS se ha limitado a casos simples y tabulares, restringiendo su aplicabilidad a los problemas del mundo real. Este trabajo explora Mon-MDP utilizando la aproximación de funciones (FA) e investiga los desafíos involucrados. Mostramos que la aproximación de la función de combinación con un modelo de recompensa aprendido permite a los agentes generalizar de los estados monitoreados con recompensas observables, a estados ambientales no supervisados con recompensas no observables. Por lo tanto, demostramos que dicha generalización con un modelo de recompensa logra políticas casi óptimas en entornos formalmente definidos como insoluble. Sin embargo, identificamos una limitación crítica de dicha aproximación de la función, donde los agentes extrapolan incorrectamente las recompensas debido a la sobregeneralización, lo que resulta en comportamientos indeseables. Para mitigar la generalización excesiva, proponemos un método de optimización policial cauteloso aprovechando la incertidumbre de la recompensa. Este trabajo sirve como un paso para cerrar esta brecha entre la teoría Mon-MDP y las aplicaciones del mundo real.

Publicado Originalme en rss.arxiv.org El 14 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Qué son los números de puerto y cómo funcionan?

Los modelos de idiomas grandes son defensores cibernéticos autónomos

Cancillería: Evaluación de capacidades de razonamiento de gobierno corporativo en modelos de idiomas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido