En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ARM-FM: máquinas de recompensa automatizadas a través de modelos básicos para el aprendizaje por refuerzo composicional

ARM-FM: máquinas de recompensa automatizadas a través de modelos básicos para el aprendizaje por refuerzo composicional

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los algoritmos de aprendizaje por refuerzo (RL) son muy sensibles a la especificación de la función de recompensa, lo que sigue siendo un desafío central que limita su amplia aplicabilidad. Presentamos ARM-FM: máquinas de recompensa automatizadas a través de modelos básicos, un marco para el diseño automatizado y compositivo de recompensas en RL que aprovecha las capacidades de razonamiento de alto nivel de los modelos básicos (FM). Las máquinas de recompensa (RM), un formalismo basado en autómatas para la especificación de recompensas, se utilizan como mecanismo para la especificación de objetivos de RL y se construyen automáticamente mediante el uso de FM. El formalismo estructurado de los RM produce descomposiciones de tareas efectivas, mientras que el uso de FM permite especificaciones objetivas en lenguaje natural. Concretamente, (i) utilizamos FM para generar automáticamente RM a partir de especificaciones de lenguaje natural; (ii) asociar incrustaciones de lenguaje con cada estado de autómata de RM para permitir la generalización entre tareas; y (iii) proporcionar evidencia empírica de la efectividad de ARM-FM en un conjunto diverso de entornos desafiantes, incluida evidencia de una generalización de tiro cero.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web