Planificación en línea con aversión al riesgo en POMDP utilizando la función de valor CVaR iterado

Resumen: Estudiamos la planificación sensible al riesgo bajo observabilidad parcial utilizando la medida de riesgo dinámico Valor en Riesgo Condicional Iterado (ICVaR). Se desarrolla un algoritmo de evaluación de políticas para ICVaR con garantías de desempeño en tiempo finito que no dependen de la cardinalidad del espacio de acción. Sobre la base de esta base, tres algoritmos de planificación en línea ampliamente utilizados: muestreo disperso, árboles de filtro de partículas con doble ampliación progresiva (PFT-DPW) y planificación de Monte Carlo parcialmente observable con ampliación de observación (POMCPOW), se amplían para optimizar la función de valor ICVaR en lugar de la expectativa de retorno. Nuestras formulaciones introducen un parámetro de riesgo $alpha$, donde $alpha = 1$ recupera la planificación estándar basada en expectativas y $alpha < 1$ induce una creciente aversión al riesgo. Para ICVaR Sparse Sampling, establecemos garantías de desempeño de tiempo finito bajo el objetivo sensible al riesgo, lo que permite aún más una estrategia de exploración novedosa adaptada a ICVaR. Los experimentos en dominios POMDP de referencia demuestran que los planificadores ICVaR propuestos logran un menor riesgo de cola en comparación con sus contrapartes neutrales al riesgo.

Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Comportamientos de razonamiento beneficiosos en la búsqueda agente y post-entrenamiento efectivo para obtenerlos

La descarga: la crisis de armas de Estados Unidos y cómo funcionan los modelos de video de IA

El cerebro del sueño y la actividad cardíaca predicen la flexibilidad cognitiva y el razonamiento conceptual utilizando el aprendizaje profundo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido