Orak: un punto de referencia fundamental para capacitar y evaluar a los agentes de LLM en diversos videojuegos

Resumen: Los agentes del Modelo de Lenguaje Gran (LLM) están remodelando la industria del juego, particularmente con personajes de juegos más inteligentes y preferibles humanos. Sin embargo, los puntos de referencia de juegos existentes no alcanzan las necesidades prácticas: carecen de evaluaciones de capacidades de LLM diversas en varios géneros de juego, estudios de módulos de agente cruciales para un juego complejo y conjuntos de datos de ajuste fino para alinear las LLM previas al entrenamiento en los agentes de juegos. Para llenar estos vacíos, presentamos textbf { benchname {}}, un punto de referencia fundamental diseñado para entrenar y evaluar agentes de LLM en diversos videojuegos del mundo real. A diferencia de los puntos de referencia existentes, Orak incluye 12 videojuegos populares que abarcan todos los géneros principales, lo que permite estudios completos de capacidades LLM y módulos de agente esenciales para escenarios de juegos intrincados. Para admitir una evaluación consistente de LLM, presentamos una interfaz plug-and-play basada en el Protocolo de contexto del modelo (MCP) que permite a LLM conectarse sin problemas con los juegos y manipular módulos de agente. Además, proponemos un conjunto de datos ajustado, que consiste en trayectorias de juego LLM en diversos géneros de juegos. Orak ofrece un marco de evaluación integral, que abarca las tablas de clasificación General Game Score, LLM Battle Arenas y análisis en profundidad del estado de entrada visual, estrategias de agente y efectos de ajuste fino, estableciendo una base para construir agentes genéricos de juegos genéricos. El código está disponible en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Boletín AIOTI Septiembre 2025

Uso de refuerzo Aprender a capacitar a grandes modelos de idiomas para explicar las decisiones humanas

Una taxonomía de futuros omnicidas que involucran inteligencia artificial

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido