LMGame Bench: ¿Qué tan buenos son los LLM en jugar juegos?

Resumen: Jugar videojuegos requiere percepción, memoria y planificación, se espera que los agentes del modelo de lenguaje grande moderno (LLM) dominen. Estudiamos los principales desafíos en el uso de videojuegos populares para evaluar los LLM modernos y descubrimos que lanzar directamente los LLM en juegos no puede hacer una evaluación efectiva, por tres razones: percepción de visión frágil, sensibilidad rápida y contaminación de datos potencial. Presentamos LMGame Bench para convertir los juegos en evaluaciones confiables. LMGame Bench presenta un conjunto de juegos de plataformas, rompecabezas y narrativos entregados a través de una API de estilo gimnasio unificada y combinado con percepción liviana y andamios de memoria, y está diseñado para estabilizar la varianza inmediata y eliminar la contaminación. En 13 modelos líderes, mostramos que LMGame Bench es un desafío mientras se separa bien. El análisis de correlación muestra que cada juego investiga una combinación única de capacidades a menudo probadas de forma aislada en otros lugares. Más interesante, realizar el aprendizaje de refuerzo en un solo juego de LMGame-Bench transfiere tanto a juegos invisibles como a tareas de planificación externa. Nuestro código de evaluación está disponible en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Los juguetes con inteligencia artificial están de moda en China y ahora también están apareciendo en los estantes de EE. UU.

Asignación de objetivos descentralizada de múltiples agentes para la planificación de rutas utilizando modelos de lenguaje grandes

GPT-5 está aquí. ¿Ahora que?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido