Resumen: La llegada de los Modelos Multimodales Unificados (UMM) señala un cambio de paradigma en la inteligencia artificial, pasando de la percepción pasiva a la generación activa intermodal. A pesar de su capacidad sin precedentes para sintetizar información, persiste una brecha crítica en la evaluación: los puntos de referencia existentes evalúan principalmente la comprensión discriminativa o la generación de imágenes sin restricciones por separado, sin medir el proceso cognitivo integrado del razonamiento generativo. Para cerrar esta brecha, proponemos que la construcción geométrica proporciona un banco de pruebas ideal, ya que inherentemente exige una fusión de comprensión del lenguaje y generación visual precisa. Presentamos GGBench, un punto de referencia diseñado específicamente para evaluar el razonamiento generativo geométrico. Proporciona un marco integral para diagnosticar sistemáticamente la capacidad de un modelo no sólo para comprender y razonar, sino también para construir activamente una solución, estableciendo así un estándar más riguroso para la próxima generación de sistemas inteligentes. Sitio web del proyecto: esta URL https.
Publicado originalmente en export.arxiv.org el 17 de noviembre de 2025.
Ver fuente original
