Resumen: Una de las aspiraciones principales en la investigación de aprendizaje de refuerzo es desarrollar agentes de uso general capaces de adaptarse rápidamente y dominar las tareas novedosas. Si bien los agentes de juegos de RL han dominado muchos juegos de Atari, permanecen lentos y costosos para entrenar para cada juego. En este trabajo, demostramos que los últimos LLM de razonamiento con el entrenamiento posterior al dominio de RL pueden jugar un juego de Atari desafiante llamado Frogger en una configuración de disparo cero. Luego investigamos el efecto del aprendizaje en contexto y la cantidad de esfuerzo de razonamiento en el rendimiento de LLM. Por último, demostramos una forma de arrancar el método RL tradicional con demostraciones de LLM, lo que mejora significativamente su rendimiento y eficiencia de la muestra. Nuestra implementación es de origen abierto en esta URL HTTPS.
Publicado Originalme en rss.arxiv.org El 7 de mayo de 2025.
Ver Fuente Original