TextSC {RFPG}: Gradientes de políticas de memoria finita robusta para POMDPS de modelo oculto

Resumen: Procesos de decisión de Markov parcialmente observables (POMDPS) entornos específicos del modelo en la toma de decisiones secuenciales bajo incertidumbre. Críticamente, las políticas óptimas para POMDP pueden no ser robustas contra las perturbaciones en el medio ambiente. Los POMDPS de modelo oculto (HM-POMDPS) capturan conjuntos de diferentes modelos de entorno, es decir, POMDPS con una acción compartida y un espacio de observación. La intuición es que el modelo verdadero está oculto entre un conjunto de modelos potenciales, y se desconoce qué modelo será el entorno en el momento de la ejecución. Una política es robusta para un HM-POMDP dado si logra un rendimiento suficiente para cada uno de sus POMDPS. Calculamos políticas tan sólidas mediante la combinación de dos técnicas ortogonales: (1) una técnica de verificación formal deductiva que respalda la evaluación de políticas sólidas manejables al calcular el peor POMDP de HM-POMDP y (2) ascenso de subgradientes para optimizar la política candidata para el peor POMDP. La evaluación empírica muestra que, en comparación con varias líneas de base, nuestro enfoque (1) produce políticas que son más robustas y generalizan mejor a los POMDP no vistos y (2) escalas a HM-POMDP que consisten en más de cien mil entornos.

Publicado Originalme en rss.arxiv.org El 14 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

AIOT en el borde: desbloqueando el poder de la toma de decisiones en tiempo real

La seguridad debe funcionar para todos

Provergido de parlamentarios: avance del teorema paso a paso PROPORED por la búsqueda multiperspectiva y la curación de datos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido