GVGAI-LLM: Evaluación de agentes de modelos de idiomas grandes con juegos infinitos

Resumen: Introducimos a GVGAI-LLM, un punto de referencia de videojuegos para evaluar las capacidades de razonamiento y resolución de problemas de modelos de idiomas grandes (LLM). Construido en el marco general de AI de videojuegos, presenta una colección diversa de juegos de estilo arcade diseñado para probar la capacidad de un modelo para manejar tareas que difieren de la mayoría de los puntos de referencia LLM existentes. El punto de referencia aprovecha un lenguaje de descripción del juego que permite la creación rápida de nuevos juegos y niveles, lo que ayuda a evitar el sobreajuste con el tiempo. Cada escena del juego está representada por un conjunto compacto de personajes ASCII, lo que permite un procesamiento eficiente por los modelos de idiomas. GVGAI-LLM define métricas interpretables, incluida la relación paso significativa, la eficiencia del paso y la puntuación general, para evaluar el comportamiento del modelo. A través de evaluaciones de disparo cero en un amplio conjunto de juegos y niveles con diversos desafíos y profundidad de habilidades, revelamos limitaciones persistentes de LLM en el razonamiento espacial y la planificación básica. Los modelos actuales exhiben errores espaciales y lógicos consistentemente, motivando técnicas estructuradas de solicitación y conexión a tierra espacial. Si bien estas intervenciones conducen a mejoras parciales, el punto de referencia permanece muy lejos de ser resuelto. GVGAI-LLM proporciona un tope de prueba reproducible para avanzar en la investigación sobre las capacidades del modelo de lenguaje, con un énfasis particular en el comportamiento de los agentes y el razonamiento contextual.

Publicado Originalme en export.arxiv.org El 12 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mezcla de pensamientos visuales: explorar la selección del modo de razonamiento adaptativo para el contexto para el razonamiento visual general

Diversificación guiada por entropía y obtención de preferencias en sistemas de recomendación agentes

La Fundación Linux da la bienvenida al proyecto SQLMesh

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido