Resumen: Estudiamos la planificación sensible al riesgo bajo observabilidad parcial utilizando la medida de riesgo dinámico Valor en Riesgo Condicional Iterado (ICVaR). Se desarrolla un algoritmo de evaluación de políticas para ICVaR con garantías de desempeño en tiempo finito que no dependen de la cardinalidad del espacio de acción. Sobre la base de esta base, tres algoritmos de planificación en línea ampliamente utilizados: muestreo disperso, árboles de filtro de partículas con doble ampliación progresiva (PFT-DPW) y planificación de Monte Carlo parcialmente observable con ampliación de observación (POMCPOW), se amplían para optimizar la función de valor ICVaR en lugar de la expectativa de retorno. Nuestras formulaciones introducen un parámetro de riesgo $alpha$, donde $alpha = 1$ recupera la planificación estándar basada en expectativas y $alpha < 1$ induce una creciente aversión al riesgo. Para ICVaR Sparse Sampling, establecemos garantías de desempeño de tiempo finito bajo el objetivo sensible al riesgo, lo que permite aún más una estrategia de exploración novedosa adaptada a ICVaR. Los experimentos en dominios POMDP de referencia demuestran que los planificadores ICVaR propuestos logran un menor riesgo de cola en comparación con sus contrapartes neutrales al riesgo.
Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original
