ARM-FM: máquinas de recompensa automatizadas a través de modelos básicos para el aprendizaje por refuerzo composicional

Resumen: Los algoritmos de aprendizaje por refuerzo (RL) son muy sensibles a la especificación de la función de recompensa, lo que sigue siendo un desafío central que limita su amplia aplicabilidad. Presentamos ARM-FM: máquinas de recompensa automatizadas a través de modelos básicos, un marco para el diseño automatizado y compositivo de recompensas en RL que aprovecha las capacidades de razonamiento de alto nivel de los modelos básicos (FM). Las máquinas de recompensa (RM), un formalismo basado en autómatas para la especificación de recompensas, se utilizan como mecanismo para la especificación de objetivos de RL y se construyen automáticamente mediante el uso de FM. El formalismo estructurado de los RM produce descomposiciones de tareas efectivas, mientras que el uso de FM permite especificaciones objetivas en lenguaje natural. Concretamente, (i) utilizamos FM para generar automáticamente RM a partir de especificaciones de lenguaje natural; (ii) asociar incrustaciones de lenguaje con cada estado de autómata de RM para permitir la generalización entre tareas; y (iii) proporcionar evidencia empírica de la efectividad de ARM-FM en un conjunto diverso de entornos desafiantes, incluida evidencia de una generalización de tiro cero.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MiRAGE: un marco multiagente para generar un conjunto de datos multimodal de preguntas y respuestas de múltiples saltos para la evaluación de RAG

Mapa del mapa de trayectoria celular de disparo cero

Internet de las cosas (IoT) y el metaverso

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido