Resumen: Los puntos de referencia existentes para grandes modelos multimodales (LMM) a menudo no logran capturar su desempeño en entornos adversarios en tiempo real. Presentamos LM Fight Arena (Large Model Fight Arena), un marco novedoso que evalúa los LMM enfrentándolos entre sí en el clásico juego de lucha Mortal Kombat II, una tarea que requiere una rápida comprensión visual y una toma de decisiones táctica y secuencial. En un torneo controlado, probamos seis modelos líderes de código abierto y cerrado, donde cada agente opera controlando el mismo personaje para garantizar una comparación justa. Se solicita a los modelos que interpreten los fotogramas del juego y los datos estatales para seleccionar sus próximas acciones. A diferencia de las evaluaciones estáticas, LM Fight Arena proporciona una evaluación objetiva, reproducible y totalmente automatizada de las capacidades de razonamiento estratégico de un LMM en un entorno dinámico. Este trabajo presenta un punto de referencia desafiante y atractivo que cierra la brecha entre la evaluación de la IA y el entretenimiento interactivo.
Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original
