Aprendizaje por refuerzo para tareas desordenadas a largo plazo: de máquinas de recompensa booleanas a acopladas

Resumen: Las máquinas de recompensa (RM) informan a los agentes de aprendizaje por refuerzo sobre la estructura de recompensa del entorno. Esto es particularmente ventajoso para tareas complejas no markovianas porque los agentes con acceso a RM pueden aprender de manera más eficiente con menos muestras.

Leer más →

Comentarios desactivados en Aprendizaje por refuerzo para tareas desordenadas a largo plazo: de máquinas de recompensa booleanas a acopladas

Fin del contenido

No hay más páginas por cargar