En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->LM Fight Arena: Evaluación comparativa de grandes modelos multimodales a través de la competencia de juegos

LM Fight Arena: Evaluación comparativa de grandes modelos multimodales a través de la competencia de juegos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los puntos de referencia existentes para grandes modelos multimodales (LMM) a menudo no logran capturar su desempeño en entornos adversarios en tiempo real. Presentamos LM Fight Arena (Large Model Fight Arena), un marco novedoso que evalúa los LMM enfrentándolos entre sí en el clásico juego de lucha Mortal Kombat II, una tarea que requiere una rápida comprensión visual y una toma de decisiones táctica y secuencial. En un torneo controlado, probamos seis modelos líderes de código abierto y cerrado, donde cada agente opera controlando el mismo personaje para garantizar una comparación justa. Se solicita a los modelos que interpreten los fotogramas del juego y los datos estatales para seleccionar sus próximas acciones. A diferencia de las evaluaciones estáticas, LM Fight Arena proporciona una evaluación objetiva, reproducible y totalmente automatizada de las capacidades de razonamiento estratégico de un LMM en un entorno dinámico. Este trabajo presenta un punto de referencia desafiante y atractivo que cierra la brecha entre la evaluación de la IA y el entretenimiento interactivo.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web