BotzoneBench: evaluación de LLM escalable mediante anclajes de IA graduados

Resumen: Los modelos de lenguajes grandes (LLM) se implementan cada vez más en entornos interactivos que requieren la toma de decisiones estratégicas, pero la evaluación sistemática de estas capacidades sigue siendo un desafío. Los puntos de referencia existentes para los LLM evalúan principalmente el razonamiento estático a través de tareas aisladas y no logran capturar las habilidades estratégicas dinámicas. Evaluaciones recientes basadas en juegos emplean torneos LLM-vs-LLM que producen clasificaciones relativas que dependen de grupos de modelos transitorios, lo que incurre en costos computacionales cuadráticos y carece de anclajes de rendimiento estables para el seguimiento longitudinal. El desafío central es establecer un marco de evaluación escalable que mida el razonamiento estratégico del LLM frente a estándares consistentes e interpretables en lugar de modelos de pares volátiles. Aquí mostramos que anclar la evaluación de LLM a jerarquías fijas de Inteligencia Artificial (IA) de juegos calibrados por habilidades permite una medición absoluta de habilidades en tiempo lineal con interpretabilidad estable en el tiempo. Construido sobre la infraestructura competitiva establecida de la plataforma Botzone, nuestro BotzoneBench evalúa los LLM en ocho juegos diversos que abarcan juegos de mesa deterministas con información perfecta hasta juegos de cartas estocásticos con información imperfecta. A través de una evaluación sistemática de 177,047 pares estado-acción de cinco modelos emblemáticos, revelamos disparidades significativas en el desempeño e identificamos comportamientos estratégicos distintos, con los modelos de alto rendimiento logrando una competencia comparable a la IA de juegos especializados de nivel medio a alto en múltiples dominios. Este paradigma de evaluación anclado se generaliza más allá de los juegos a cualquier dominio con jerarquías de habilidades bien definidas, estableciendo un marco escalable y reutilizable para evaluar las capacidades interactivas de la IA.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Linux Foundation y ATIS socio para avanzar en el desarrollo e integración de código abierto, Open Ran Technologies

Cómo los relojes envejecidos pueden ayudarnos a comprender por qué envejecemos y si podemos revertirlo

Agente de ECG: agente de llamada de herramientas en el dispositivo para el diálogo de múltiples turnos de ECG

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido