LM Fight Arena: Evaluación comparativa de grandes modelos multimodales a través de la competencia de juegos

Resumen: Los puntos de referencia existentes para grandes modelos multimodales (LMM) a menudo no logran capturar su desempeño en entornos adversarios en tiempo real. Presentamos LM Fight Arena (Large Model Fight Arena), un marco novedoso que evalúa los LMM enfrentándolos entre sí en el clásico juego de lucha Mortal Kombat II, una tarea que requiere una rápida comprensión visual y una toma de decisiones táctica y secuencial. En un torneo controlado, probamos seis modelos líderes de código abierto y cerrado, donde cada agente opera controlando el mismo personaje para garantizar una comparación justa. Se solicita a los modelos que interpreten los fotogramas del juego y los datos estatales para seleccionar sus próximas acciones. A diferencia de las evaluaciones estáticas, LM Fight Arena proporciona una evaluación objetiva, reproducible y totalmente automatizada de las capacidades de razonamiento estratégico de un LMM en un entorno dinámico. Este trabajo presenta un punto de referencia desafiante y atractivo que cierra la brecha entre la evaluación de la IA y el entretenimiento interactivo.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Craft-Gui: agente reforzado con el plan de estudios para tareas de GUI

En qué nos hemos equivocado sobre la crisis de la verdad de la IA

Fusionarse y conquistar: optimización evolutiva de la IA para 2048

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido