Resumen: Las máquinas de recompensa (RM) informan a los agentes de aprendizaje por refuerzo sobre la estructura de recompensa del entorno. Esto es particularmente ventajoso para tareas complejas no markovianas porque los agentes con acceso a RM pueden aprender de manera más eficiente con menos muestras. Sin embargo, el aprendizaje con RM no es adecuado para problemas a largo plazo en los que se puede ejecutar un conjunto de subtareas en cualquier orden. En tales casos, la cantidad de información a aprender aumenta exponencialmente con el número de subtareas desordenadas. En este trabajo, abordamos esta limitación introduciendo tres generalizaciones de RM: (1) Los RM numéricos permiten a los usuarios expresar tareas complejas en una forma compacta. (2) En las RM de Agenda, los estados están asociados con una agenda que rastrea las subtareas restantes por completar. (3) Los RM acoplados tienen estados acoplados asociados con cada subtarea en la agenda. Además, presentamos un nuevo algoritmo de aprendizaje compositivo que aprovecha los RM acoplados: Q-learning con RM acoplados (CoRM). Nuestros experimentos muestran que CoRM escala mejor que los algoritmos RM de última generación para problemas de largo horizonte con subtareas desordenadas.
Publicado originalmente en export.arxiv.org el 2 de noviembre de 2025.
Ver fuente original
