Resumen: Jugar videojuegos requiere percepción, memoria y planificación, se espera que los agentes del modelo de lenguaje grande moderno (LLM) dominen. Estudiamos los principales desafíos en el uso de videojuegos populares para evaluar los LLM modernos y descubrimos que lanzar directamente los LLM en juegos no puede hacer una evaluación efectiva, por tres razones: percepción de visión frágil, sensibilidad rápida y contaminación de datos potencial. Presentamos LMGame Bench para convertir los juegos en evaluaciones confiables. LMGame Bench presenta un conjunto de juegos de plataformas, rompecabezas y narrativos entregados a través de una API de estilo gimnasio unificada y combinado con percepción liviana y andamios de memoria, y está diseñado para estabilizar la varianza inmediata y eliminar la contaminación. En 13 modelos líderes, mostramos que LMGame Bench es un desafío mientras se separa bien. El análisis de correlación muestra que cada juego investiga una combinación única de capacidades a menudo probadas de forma aislada en otros lugares. Más interesante, realizar el aprendizaje de refuerzo en un solo juego de LMGame-Bench transfiere tanto a juegos invisibles como a tareas de planificación externa. Nuestro código de evaluación está disponible en esta URL HTTPS.
Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original