Impulsar el aprendizaje por refuerzo profundo mediante el entrenamiento previo con opciones lógicas
Resumen: Los agentes de aprendizaje por refuerzo profundo a menudo están desalineados, ya que sobreexplotan las señales tempranas de recompensa. Recientemente, varios enfoques simbólicos han abordado estos desafíos codificando objetivos dispersos junto con planes alineados. Sin embargo, las arquitecturas puramente simbólicas son complejas de escalar y difíciles de aplicar a entornos continuos.
Leer más →