Resumen: Presentamos PlotChain, un punto de referencia determinista basado en generador para evaluar modelos multimodales de lenguaje grande (MLLM) en la lectura de gráficos de ingeniería, recuperando valores cuantitativos de gráficos clásicos (por ejemplo, Bode/FFT, respuesta escalonada, tensión-deformación, curvas de bombeo) en lugar de extracción solo de OCR o subtítulos de forma libre. PlotChain contiene 15 familias de gráficos con 450 gráficos renderizados (30 por familia), donde cada elemento se produce a partir de parámetros conocidos y se combina con la verdad exacta del terreno calculada directamente desde el proceso de generación. Una contribución central es la evaluación de diagnóstico basada en puntos de control: además de los objetivos finales, cada elemento incluye campos ‘cp_’ intermedios que aíslan las subhabilidades (por ejemplo, frecuencia de corte de lectura o magnitud máxima) y permiten la localización de fallas dentro de una familia de tramas. Evaluamos cuatro MLLM de última generación bajo un protocolo determinista estandarizado (temperatura = 0 y un estricto esquema de salida numérico solo JSON) y puntuamos predicciones utilizando tolerancias por campo diseñadas para reflejar la precisión de la lectura de la trama humana. Según la política de tolerancia de ‘plotread’, los mejores modelos alcanzan tasas generales de aprobación a nivel de campo del 80,42% (Gemini 2.5 Pro), 79,84% (GPT-4.1) y 78,21% (Claude Sonnet 4.5), mientras que el GPT-4o se queda atrás con un 61,59%. A pesar del buen desempeño en muchas familias, las tareas en el dominio de la frecuencia siguen siendo frágiles: la respuesta de paso de banda se mantiene baja (<= 23%) y el espectro FFT sigue siendo un desafío. Publicamos el generador, el conjunto de datos, los resultados del modelo sin procesar, el código de puntuación y los manifiestos con sumas de verificación para admitir ejecuciones totalmente reproducibles y una nueva puntuación retrospectiva según políticas de tolerancia alternativas.
Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original
