Resumen: La inicialización de la función de valor (VFI) es una forma efectiva de lograr un salto en el aprendizaje de refuerzo (RL) aprovechando las estimaciones de valor de las tareas anteriores. Si bien este enfoque está bien establecido en entornos tabulares, extenderlo al aprendizaje de refuerzo profundo (DRL) plantea desafíos debido a la naturaleza continua del espacio de acción estatal, las aproximaciones ruidosas de las redes neuronales y la impractical de almacenar todos los modelos pasados para la reutilización. En este trabajo, abordamos estos desafíos e presentamos DQInit, un método que adapta la inicialización de la función de valor a DRL. DQInit reutiliza valores Q tabulares compactos extraídos de tareas previamente resueltas como una base de conocimiento transferible. Emplea un mecanismo basado en la enfermedad conocido para integrar suavemente estos valores transferidos a regiones subexploradas y cambiar gradualmente hacia las estimaciones aprendidas del agente, evitando las limitaciones de la descomposición del tiempo fijo. Nuestro enfoque ofrece una perspectiva novedosa sobre la transferencia de conocimiento en DRL al confiar únicamente en las estimaciones de valor en lugar de las políticas o manifestaciones, combinando efectivamente las fortalezas de JumpStart RL y la destilación de políticas mientras mitigan sus inconvenientes. Los experimentos en múltiples tareas de control continuo demuestran que DQInit mejora constantemente la eficiencia del aprendizaje temprano, la estabilidad y el rendimiento general en comparación con la inicialización estándar y las técnicas de transferencia existentes.
Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original
