Resumen: Al abordar problemas complejos, los humanos los descomponen naturalmente en subtareas más pequeñas y manejables y ajustan sus planes iniciales según las observaciones. Por ejemplo, si desea hacer café en lugar de un amigo, inicialmente puede planear tomar granos de café, ir a la máquina de café y verterlos en la máquina. Al notar que la máquina está llena, saltará los pasos iniciales y procederá directamente a la elaboración de la cerveza. En marcado contraste, los estudiantes de refuerzo de última generación, como la optimización de políticas proximales (PPO), carecen de dicho conocimiento previo y, por lo tanto, requieren significativamente más pasos de capacitación para exhibir un comportamiento adaptativo comparable. Por lo tanto, surge una pregunta de investigación central: textit {¿Cómo podemos permitir que los agentes de aprendizaje de refuerzo (RL) tengan “ priors humanos ” similares, permitiendo que el agente aprenda con menos interacciones de capacitación?} Para abordar este desafío, proponemos un planificador simbólico diferenciable (Dylan), un marco novedoso que integra la planificación simbólica en el aprendizaje de reintegración. Dylan sirve como un modelo de recompensa que da forma dinámicamente las recompensas al aprovechar los antecedentes humanos, guiando a los agentes a través de subtareas intermedias, lo que permite una exploración más eficiente. Más allá de la configuración de la recompensa, Dylan puede funcionar como un planificador de alto nivel que compone políticas primitivas para generar nuevos comportamientos al tiempo que evita las trampas de planificadores simbólicos comunes, como los bucles de ejecución infinitos. Nuestras evaluaciones experimentales demuestran que Dylan mejora significativamente el rendimiento de los agentes de RL y facilita la generalización a tareas invisibles.
Publicado Originalme en rss.arxiv.org El 19 de mayo de 2025.
Ver Fuente Original