Sopa de rana: agentes de Frogger de bajo contenido de shot, en contexto y de muestra

Resumen: Una de las aspiraciones principales en la investigación de aprendizaje de refuerzo es desarrollar agentes de uso general capaces de adaptarse rápidamente y dominar las tareas novedosas. Si bien los agentes de juegos de RL han dominado muchos juegos de Atari, permanecen lentos y costosos para entrenar para cada juego. En este trabajo, demostramos que los últimos LLM de razonamiento con el entrenamiento posterior al dominio de RL pueden jugar un juego de Atari desafiante llamado Frogger en una configuración de disparo cero. Luego investigamos el efecto del aprendizaje en contexto y la cantidad de esfuerzo de razonamiento en el rendimiento de LLM. Por último, demostramos una forma de arrancar el método RL tradicional con demostraciones de LLM, lo que mejora significativamente su rendimiento y eficiencia de la muestra. Nuestra implementación es de origen abierto en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 7 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Comportamiento contra la inferencia en sistemas cognitivos naturales y artificiales

Manus ha iniciado un agente de IA en China

Boletín AIOTI Mayo 2025

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido