En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->GammaZero: aprender a guiar la búsqueda en el espacio de creencias POMDP con representaciones gráficas

GammaZero: aprender a guiar la búsqueda en el espacio de creencias POMDP con representaciones gráficas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Presentamos un marco de representación de gráficos centrado en la acción para aprender a guiar la planificación en procesos de decisión de Markov parcialmente observables (POMDP). A diferencia de los enfoques existentes que requieren arquitecturas neuronales específicas de un dominio y luchan con la escalabilidad, GammaZero aprovecha una representación de creencias unificada basada en gráficos que permite la generalización entre tamaños de problemas dentro de un dominio. Nuestra idea clave es que los estados de creencias pueden transformarse sistemáticamente en gráficos centrados en la acción donde los patrones estructurales aprendidos en problemas pequeños se transfieren a instancias más grandes. Empleamos una red neuronal gráfica con una arquitectura decodificadora para aprender funciones y políticas de valor a partir de demostraciones de expertos sobre problemas computacionalmente manejables, luego aplicamos estas heurísticas aprendidas para guiar la búsqueda de árboles de Monte Carlo en problemas más grandes. Los resultados experimentales en los puntos de referencia POMDP estándar demuestran que GammaZero logra un rendimiento comparable al de BetaZero cuando se entrena y prueba en problemas del mismo tamaño, al tiempo que permite de manera única la generalización cero a problemas de 2 a 4 veces más grandes que los observados durante el entrenamiento, manteniendo la calidad de la solución con requisitos de búsqueda reducidos.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web