Inicialización de la función de valor para la transferencia de conocimiento y el arranque en el aprendizaje de refuerzo profundo

Resumen: La inicialización de la función de valor (VFI) es una forma efectiva de lograr un salto en el aprendizaje de refuerzo (RL) aprovechando las estimaciones de valor de las tareas anteriores. Si bien este enfoque está bien establecido en entornos tabulares, extenderlo al aprendizaje de refuerzo profundo (DRL) plantea desafíos debido a la naturaleza continua del espacio de acción estatal, las aproximaciones ruidosas de las redes neuronales y la impractical de almacenar todos los modelos pasados para la reutilización. En este trabajo, abordamos estos desafíos e presentamos DQInit, un método que adapta la inicialización de la función de valor a DRL. DQInit reutiliza valores Q tabulares compactos extraídos de tareas previamente resueltas como una base de conocimiento transferible. Emplea un mecanismo basado en la enfermedad conocido para integrar suavemente estos valores transferidos a regiones subexploradas y cambiar gradualmente hacia las estimaciones aprendidas del agente, evitando las limitaciones de la descomposición del tiempo fijo. Nuestro enfoque ofrece una perspectiva novedosa sobre la transferencia de conocimiento en DRL al confiar únicamente en las estimaciones de valor en lugar de las políticas o manifestaciones, combinando efectivamente las fortalezas de JumpStart RL y la destilación de políticas mientras mitigan sus inconvenientes. Los experimentos en múltiples tareas de control continuo demuestran que DQInit mejora constantemente la eficiencia del aprendizaje temprano, la estabilidad y el rendimiento general en comparación con la inicialización estándar y las técnicas de transferencia existentes.

Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Investigación sobre inferencia de baja latencia y optimización de eficiencia de capacitación para la red neuronal gráfica y los sistemas de recomendación basados ​​en modelos de idiomas grandes

Vera Rubin: Así es tan lejos que llegan los ingenieros para explorar el universo

Mapa del mapa de trayectoria celular de disparo cero

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Investigación sobre inferencia de baja latencia y optimización de eficiencia de capacitación para la red neuronal gráfica y los sistemas de recomendación basados en modelos de idiomas grandes