Resumen: Procesos de decisión de Markov parcialmente observables (POMDPS) entornos específicos del modelo en la toma de decisiones secuenciales bajo incertidumbre. Críticamente, las políticas óptimas para POMDP pueden no ser robustas contra las perturbaciones en el medio ambiente. Los POMDPS de modelo oculto (HM-POMDPS) capturan conjuntos de diferentes modelos de entorno, es decir, POMDPS con una acción compartida y un espacio de observación. La intuición es que el modelo verdadero está oculto entre un conjunto de modelos potenciales, y se desconoce qué modelo será el entorno en el momento de la ejecución. Una política es robusta para un HM-POMDP dado si logra un rendimiento suficiente para cada uno de sus POMDPS. Calculamos políticas tan sólidas mediante la combinación de dos técnicas ortogonales: (1) una técnica de verificación formal deductiva que respalda la evaluación de políticas sólidas manejables al calcular el peor POMDP de HM-POMDP y (2) ascenso de subgradientes para optimizar la política candidata para el peor POMDP. La evaluación empírica muestra que, en comparación con varias líneas de base, nuestro enfoque (1) produce políticas que son más robustas y generalizan mejor a los POMDP no vistos y (2) escalas a HM-POMDP que consisten en más de cien mil entornos.
Publicado Originalme en rss.arxiv.org El 14 de mayo de 2025.
Ver Fuente Original