Resumen: Los agentes de aprendizaje por refuerzo profundo a menudo están desalineados, ya que sobreexplotan las señales tempranas de recompensa. Recientemente, varios enfoques simbólicos han abordado estos desafíos codificando objetivos dispersos junto con planes alineados. Sin embargo, las arquitecturas puramente simbólicas son complejas de escalar y difíciles de aplicar a entornos continuos. Por tanto, proponemos un enfoque híbrido, inspirado en la capacidad de los humanos para adquirir nuevas habilidades. Utilizamos un marco de dos etapas que inyecta una estructura simbólica en agentes de aprendizaje por refuerzo de base neuronal sin sacrificar la expresividad de las políticas profundas. Nuestro método, llamado Hybrid Hierarchical RL (H^2RL), introduce una estrategia lógica de preentrenamiento basada en opciones para desviar la política de aprendizaje de ciclos de recompensa a corto plazo y hacia un comportamiento dirigido a objetivos, al tiempo que permite que la política final se refine a través de la interacción del entorno estándar. Empíricamente, demostramos que este enfoque mejora consistentemente la toma de decisiones a largo plazo y produce agentes que superan fuertes bases neuronales, simbólicas y neurosimbólicas.
Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original
