 Resumen: Los POMDP multiambiente (ME-POMDP) amplían los POMDP estándar con incertidumbre de modelo discreto. Los ME-POMDP representan un conjunto finito de POMDP que comparten el mismo estado, acción y espacios de observación, pero pueden variar arbitrariamente en sus modelos de transición, observación y recompensa. Estos modelos surgen, por ejemplo, cuando varios expertos en distintos campos no están de acuerdo sobre cómo modelar un problema. El objetivo es encontrar una política única que sea sólida frente a cualquier elección de POMDP dentro del conjunto, es decir, una política que maximice la recompensa en el peor de los casos en todos los POMDP. Generalizamos y ampliamos el trabajo existente de la siguiente manera. Primero, mostramos que los ME-POMDP se pueden generalizar a los POMDP con conjuntos de creencias iniciales, que llamamos POMDP de creencias adversarias (AB-POMDP). En segundo lugar, mostramos que cualquier ME-POMDP arbitrario puede reducirse a un ME-POMDP que solo varía en sus funciones de transición y recompensa o solo en sus funciones de observación y recompensa, preservando al mismo tiempo las políticas (óptimas). Luego, diseñamos algoritmos exactos y aproximados (basados en puntos) para calcular políticas sólidas para los AB-POMDP y, por lo tanto, para los ME-POMDP. Demostramos que podemos calcular políticas para puntos de referencia POMDP estándar extendidos a la configuración de entornos múltiples.
Resumen: Los POMDP multiambiente (ME-POMDP) amplían los POMDP estándar con incertidumbre de modelo discreto. Los ME-POMDP representan un conjunto finito de POMDP que comparten el mismo estado, acción y espacios de observación, pero pueden variar arbitrariamente en sus modelos de transición, observación y recompensa. Estos modelos surgen, por ejemplo, cuando varios expertos en distintos campos no están de acuerdo sobre cómo modelar un problema. El objetivo es encontrar una política única que sea sólida frente a cualquier elección de POMDP dentro del conjunto, es decir, una política que maximice la recompensa en el peor de los casos en todos los POMDP. Generalizamos y ampliamos el trabajo existente de la siguiente manera. Primero, mostramos que los ME-POMDP se pueden generalizar a los POMDP con conjuntos de creencias iniciales, que llamamos POMDP de creencias adversarias (AB-POMDP). En segundo lugar, mostramos que cualquier ME-POMDP arbitrario puede reducirse a un ME-POMDP que solo varía en sus funciones de transición y recompensa o solo en sus funciones de observación y recompensa, preservando al mismo tiempo las políticas (óptimas). Luego, diseñamos algoritmos exactos y aproximados (basados en puntos) para calcular políticas sólidas para los AB-POMDP y, por lo tanto, para los ME-POMDP. Demostramos que podemos calcular políticas para puntos de referencia POMDP estándar extendidos a la configuración de entornos múltiples.
Publicado originalmente en export.arxiv.org el 28 de octubre de 2025.
Ver fuente original

 
 
			 
							 
							 
							