Resumen: Presentamos un marco de representación de gráficos centrado en la acción para aprender a guiar la planificación en procesos de decisión de Markov parcialmente observables (POMDP). A diferencia de los enfoques existentes que requieren arquitecturas neuronales específicas de un dominio y luchan con la escalabilidad, GammaZero aprovecha una representación de creencias unificada basada en gráficos que permite la generalización entre tamaños de problemas dentro de un dominio. Nuestra idea clave es que los estados de creencias pueden transformarse sistemáticamente en gráficos centrados en la acción donde los patrones estructurales aprendidos en problemas pequeños se transfieren a instancias más grandes. Empleamos una red neuronal gráfica con una arquitectura decodificadora para aprender funciones y políticas de valor a partir de demostraciones de expertos sobre problemas computacionalmente manejables, luego aplicamos estas heurísticas aprendidas para guiar la búsqueda de árboles de Monte Carlo en problemas más grandes. Los resultados experimentales en los puntos de referencia POMDP estándar demuestran que GammaZero logra un rendimiento comparable al de BetaZero cuando se entrena y prueba en problemas del mismo tamaño, al tiempo que permite de manera única la generalización cero a problemas de 2 a 4 veces más grandes que los observados durante el entrenamiento, manteniendo la calidad de la solución con requisitos de búsqueda reducidos.
Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original
