GammaZero: aprender a guiar la búsqueda en el espacio de creencias POMDP con representaciones gráficas

Resumen: Presentamos un marco de representación de gráficos centrado en la acción para aprender a guiar la planificación en procesos de decisión de Markov parcialmente observables (POMDP). A diferencia de los enfoques existentes que requieren arquitecturas neuronales específicas de un dominio y luchan con la escalabilidad, GammaZero aprovecha una representación de creencias unificada basada en gráficos que permite la generalización entre tamaños de problemas dentro de un dominio. Nuestra idea clave es que los estados de creencias pueden transformarse sistemáticamente en gráficos centrados en la acción donde los patrones estructurales aprendidos en problemas pequeños se transfieren a instancias más grandes. Empleamos una red neuronal gráfica con una arquitectura decodificadora para aprender funciones y políticas de valor a partir de demostraciones de expertos sobre problemas computacionalmente manejables, luego aplicamos estas heurísticas aprendidas para guiar la búsqueda de árboles de Monte Carlo en problemas más grandes. Los resultados experimentales en los puntos de referencia POMDP estándar demuestran que GammaZero logra un rendimiento comparable al de BetaZero cuando se entrena y prueba en problemas del mismo tamaño, al tiempo que permite de manera única la generalización cero a problemas de 2 a 4 veces más grandes que los observados durante el entrenamiento, manteniendo la calidad de la solución con requisitos de búsqueda reducidos.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Reprogramación de la UAM basada en la intención

Sistema de modelo de lenguaje grande aumentado para recuperación para contraindicaciones de drogas integrales

Hacia el pronóstico financiero multimodal unificado: integración de incrustaciones de sentimientos e indicadores de mercado a través de la atención intermodal

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido