Resumen: Los algoritmos de aprendizaje por refuerzo (RL) son muy sensibles a la especificación de la función de recompensa, lo que sigue siendo un desafío central que limita su amplia aplicabilidad. Presentamos ARM-FM: máquinas de recompensa automatizadas a través de modelos básicos, un marco para el diseño automatizado y compositivo de recompensas en RL que aprovecha las capacidades de razonamiento de alto nivel de los modelos básicos (FM). Las máquinas de recompensa (RM), un formalismo basado en autómatas para la especificación de recompensas, se utilizan como mecanismo para la especificación de objetivos de RL y se construyen automáticamente mediante el uso de FM. El formalismo estructurado de los RM produce descomposiciones de tareas efectivas, mientras que el uso de FM permite especificaciones objetivas en lenguaje natural. Concretamente, (i) utilizamos FM para generar automáticamente RM a partir de especificaciones de lenguaje natural; (ii) asociar incrustaciones de lenguaje con cada estado de autómata de RM para permitir la generalización entre tareas; y (iii) proporcionar evidencia empírica de la efectividad de ARM-FM en un conjunto diverso de entornos desafiantes, incluida evidencia de una generalización de tiro cero.
Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original
