En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->GVGAI-LLM: Evaluación de agentes de modelos de idiomas grandes con juegos infinitos

GVGAI-LLM: Evaluación de agentes de modelos de idiomas grandes con juegos infinitos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Introducimos a GVGAI-LLM, un punto de referencia de videojuegos para evaluar las capacidades de razonamiento y resolución de problemas de modelos de idiomas grandes (LLM). Construido en el marco general de AI de videojuegos, presenta una colección diversa de juegos de estilo arcade diseñado para probar la capacidad de un modelo para manejar tareas que difieren de la mayoría de los puntos de referencia LLM existentes. El punto de referencia aprovecha un lenguaje de descripción del juego que permite la creación rápida de nuevos juegos y niveles, lo que ayuda a evitar el sobreajuste con el tiempo. Cada escena del juego está representada por un conjunto compacto de personajes ASCII, lo que permite un procesamiento eficiente por los modelos de idiomas. GVGAI-LLM define métricas interpretables, incluida la relación paso significativa, la eficiencia del paso y la puntuación general, para evaluar el comportamiento del modelo. A través de evaluaciones de disparo cero en un amplio conjunto de juegos y niveles con diversos desafíos y profundidad de habilidades, revelamos limitaciones persistentes de LLM en el razonamiento espacial y la planificación básica. Los modelos actuales exhiben errores espaciales y lógicos consistentemente, motivando técnicas estructuradas de solicitación y conexión a tierra espacial. Si bien estas intervenciones conducen a mejoras parciales, el punto de referencia permanece muy lejos de ser resuelto. GVGAI-LLM proporciona un tope de prueba reproducible para avanzar en la investigación sobre las capacidades del modelo de lenguaje, con un énfasis particular en el comportamiento de los agentes y el razonamiento contextual.

Publicado Originalme en export.arxiv.org El 12 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web