MDK12 Bench: una evaluación completa de modelos de lenguaje grande multimodal en exámenes multidisciplinarios

Resumen: los modelos de lenguaje grande multimodal (MLLM), que integran el lenguaje y las señales visuales para la resolución de problemas, son cruciales para avanzar en la inteligencia general artificial (AGI). Sin embargo, los puntos de referencia actuales para medir la inteligencia de MLLM sufren de escala limitada, cobertura estrecha y conocimiento no estructurado, que ofrecen solo evaluaciones estáticas e indiferenciadas. Para cerrar esta brecha, presentamos el banco MDK12, un punto de referencia multidisciplinario a gran escala construido a partir de exámenes K-12 del mundo real que abarcan seis disciplinas con 141k instancias y 6,225 puntos de conocimiento organizados en una taxonomía de seis capas. Cubriendo cinco formatos de preguntas con dificultades y anotaciones de año, permite una evaluación integral para capturar la medida en que los MLLM funcionan en cuatro dimensiones: 1) Niveles de dificultad, 2) cambios temporales (intermedios), 3) cambios contextuales y 4) razonamiento basado en el conocimiento. Proponemos un nuevo marco de evaluación dinámica que introduce cambios de forma visual, textual y de preguntas desconocido para desafiar la generalización del modelo al tiempo que mejora la objetividad de referencia y la longevidad mediante la mitigación de la contaminación de datos. Evaluamos aún más la generación de referencia de referencia de punto de conocimiento (KP-RAG) para examinar el papel del conocimiento en la resolución de problemas. Los hallazgos clave revelan limitaciones en los MLLM actuales en múltiples aspectos y brindan orientación para mejorar la robustez del modelo, la interpretabilidad y la educación asistida por AI-AI.

Publicado Originalme en export.arxiv.org El 11 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

DAO-AI: Evaluación de la toma de decisiones colectiva a través de IA agente en la gobernanza descentralizada

Las tres grandes preguntas sin respuesta sobre Sora

De consultas a conocimientos: canalizaciones de LLM agentes para conversión de texto a SQL espacio-temporal

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido