Resumen: Presentamos **CRYSTAL** (*__C__lear __R__easoning via __Y__ielded __S__teps, __T__raceability and __L__ogic*), un punto de referencia de diagnóstico con 6,372 instancias que evalúa el razonamiento multimodal a través de pasos intermedios verificables. Proponemos dos métricas complementarias: *Match F1*, que puntúa la precisión a nivel de paso y la recuperación mediante coincidencia de similitud semántica, y *Ordered Match F1*, que penaliza aún más las cadenas de razonamiento desordenadas. Las referencias se construyen a través de un proceso inspirado en Delphi donde cuatro MLLM independientes generan trayectorias, agregadas mediante agrupación semántica y validadas a través de puertas de calidad humana. La evaluación de 20 MLLM, incluidos los sistemas de frontera comerciales que no se utilizaron durante la construcción de puntos de referencia, revela fallas sistemáticas invisibles a la precisión: selección universal (la precisión supera con creces la recuperación), compensaciones de escala no monótonas y razonamiento desordenado donde ningún modelo competitivo preserva más del 60% de los pasos coincidentes en el orden correcto. Más allá de la evaluación, proponemos la **Recompensa del proceso causal (CPR)**, una recompensa multiplicativa que combina la corrección de las respuestas con la alineación a nivel de pasos, y el **CPR-Curriculum**, que aumenta progresivamente la dificultad de razonamiento durante el entrenamiento. CPR-Curriculum logra un +32 % de coincidencia F1 a través de GRPO, donde las estrategias de recompensa aditivas fallan, mejorando el razonamiento sin anotación manual de pasos.
Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original
