En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Orak: un punto de referencia fundamental para capacitar y evaluar a los agentes de LLM en diversos videojuegos

Orak: un punto de referencia fundamental para capacitar y evaluar a los agentes de LLM en diversos videojuegos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes del Modelo de Lenguaje Gran (LLM) están remodelando la industria del juego, particularmente con personajes de juegos más inteligentes y preferibles humanos. Sin embargo, los puntos de referencia de juegos existentes no alcanzan las necesidades prácticas: carecen de evaluaciones de capacidades de LLM diversas en varios géneros de juego, estudios de módulos de agente cruciales para un juego complejo y conjuntos de datos de ajuste fino para alinear las LLM previas al entrenamiento en los agentes de juegos. Para llenar estos vacíos, presentamos textbf { benchname {}}, un punto de referencia fundamental diseñado para entrenar y evaluar agentes de LLM en diversos videojuegos del mundo real. A diferencia de los puntos de referencia existentes, Orak incluye 12 videojuegos populares que abarcan todos los géneros principales, lo que permite estudios completos de capacidades LLM y módulos de agente esenciales para escenarios de juegos intrincados. Para admitir una evaluación consistente de LLM, presentamos una interfaz plug-and-play basada en el Protocolo de contexto del modelo (MCP) que permite a LLM conectarse sin problemas con los juegos y manipular módulos de agente. Además, proponemos un conjunto de datos ajustado, que consiste en trayectorias de juego LLM en diversos géneros de juegos. Orak ofrece un marco de evaluación integral, que abarca las tablas de clasificación General Game Score, LLM Battle Arenas y análisis en profundidad del estado de entrada visual, estrategias de agente y efectos de ajuste fino, estableciendo una base para construir agentes genéricos de juegos genéricos. El código está disponible en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web