Resumen: Las máquinas de recompensa (RM) informan a los agentes de aprendizaje por refuerzo sobre la estructura de recompensa del entorno. Esto es particularmente ventajoso para tareas complejas no markovianas porque los agentes con acceso a RM pueden aprender de manera más eficiente con menos muestras. Sin embargo, el aprendizaje con RM no es adecuado para problemas a largo plazo en los que se puede ejecutar un conjunto de subtareas en cualquier orden. En tales casos, la cantidad de información a aprender aumenta exponencialmente con el número de subtareas desordenadas. En este trabajo, abordamos esta limitación introduciendo tres generalizaciones de RM: (1) Los RM numéricos permiten a los usuarios expresar tareas complejas en una forma compacta. (2) En las RM de Agenda, los estados están asociados con una agenda que rastrea las subtareas restantes por completar. (3) Los RM acoplados tienen estados acoplados asociados con cada subtarea en la agenda. Además, presentamos un nuevo algoritmo de aprendizaje compositivo que aprovecha los RM acoplados: Q-learning con RM acoplados (CoRM). Nuestros experimentos muestran que CoRM escala mejor que los algoritmos RM de última generación para problemas de largo horizonte con subtareas desordenadas.

Publicado originalmente en export.arxiv.org el 2 de noviembre de 2025.
Ver fuente original

Aprendizaje por refuerzo para tareas desordenadas a largo plazo: de máquinas de recompensa booleanas a acopladas

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Capacitar agentes de LLM para empoderar a los humanos

Forjar conexiones en el espacio con tecnología celular

La descarga: progreso de energía limpia y trilema de OpenAi

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido