Impulsar el aprendizaje por refuerzo profundo mediante el entrenamiento previo con opciones lógicas

Resumen: Los agentes de aprendizaje por refuerzo profundo a menudo están desalineados, ya que sobreexplotan las señales tempranas de recompensa. Recientemente, varios enfoques simbólicos han abordado estos desafíos codificando objetivos dispersos junto con planes alineados. Sin embargo, las arquitecturas puramente simbólicas son complejas de escalar y difíciles de aplicar a entornos continuos. Por tanto, proponemos un enfoque híbrido, inspirado en la capacidad de los humanos para adquirir nuevas habilidades. Utilizamos un marco de dos etapas que inyecta una estructura simbólica en agentes de aprendizaje por refuerzo de base neuronal sin sacrificar la expresividad de las políticas profundas. Nuestro método, llamado Hybrid Hierarchical RL (H^2RL), introduce una estrategia lógica de preentrenamiento basada en opciones para desviar la política de aprendizaje de ciclos de recompensa a corto plazo y hacia un comportamiento dirigido a objetivos, al tiempo que permite que la política final se refine a través de la interacción del entorno estándar. Empíricamente, demostramos que este enfoque mejora consistentemente la toma de decisiones a largo plazo y produce agentes que superan fuertes bases neuronales, simbólicas y neurosimbólicas.

Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El ruido del atacante puede manipular su LLM basado en audio en el mundo real

Comprender y mitigar el sobrerefusal en LLMS desde una perspectiva de inauguración del límite de decisión de seguridad

Boletín AIOTI Diciembre 2025

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido