Más allá de las respuestas finales: CRYSTAL Benchmark para una evaluación transparente del razonamiento multimodal

Resumen: Presentamos **CRYSTAL** (*__C__lear __R__easoning via __Y__ielded __S__teps, __T__raceability and __L__ogic*), un punto de referencia de diagnóstico con 6,372 instancias que evalúa el razonamiento multimodal a través de pasos intermedios verificables. Proponemos dos métricas complementarias: *Match F1*, que puntúa la precisión a nivel de paso y la recuperación mediante coincidencia de similitud semántica, y *Ordered Match F1*, que penaliza aún más las cadenas de razonamiento desordenadas. Las referencias se construyen a través de un proceso inspirado en Delphi donde cuatro MLLM independientes generan trayectorias, agregadas mediante agrupación semántica y validadas a través de puertas de calidad humana. La evaluación de 20 MLLM, incluidos los sistemas de frontera comerciales que no se utilizaron durante la construcción de puntos de referencia, revela fallas sistemáticas invisibles a la precisión: selección universal (la precisión supera con creces la recuperación), compensaciones de escala no monótonas y razonamiento desordenado donde ningún modelo competitivo preserva más del 60% de los pasos coincidentes en el orden correcto. Más allá de la evaluación, proponemos la **Recompensa del proceso causal (CPR)**, una recompensa multiplicativa que combina la corrección de las respuestas con la alineación a nivel de pasos, y el **CPR-Curriculum**, que aumenta progresivamente la dificultad de razonamiento durante el entrenamiento. CPR-Curriculum logra un +32 % de coincidencia F1 a través de GRPO, donde las estrategias de recompensa aditivas fallan, mejorando el razonamiento sin anotación manual de pasos.

Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cooperación entre múltiples agentes a través de la inferencia de jugadores cooperativos en contexto

Desde la generación de imágenes hasta el diseño de infraestructura: una tubería de múltiples agentes para la generación de diseño de calles

Sesión informativa en línea: EIC de doble uso y defensa

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido