En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->MDK12 Bench: una evaluación completa de modelos de lenguaje grande multimodal en exámenes multidisciplinarios

MDK12 Bench: una evaluación completa de modelos de lenguaje grande multimodal en exámenes multidisciplinarios

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: los modelos de lenguaje grande multimodal (MLLM), que integran el lenguaje y las señales visuales para la resolución de problemas, son cruciales para avanzar en la inteligencia general artificial (AGI). Sin embargo, los puntos de referencia actuales para medir la inteligencia de MLLM sufren de escala limitada, cobertura estrecha y conocimiento no estructurado, que ofrecen solo evaluaciones estáticas e indiferenciadas. Para cerrar esta brecha, presentamos el banco MDK12, un punto de referencia multidisciplinario a gran escala construido a partir de exámenes K-12 del mundo real que abarcan seis disciplinas con 141k instancias y 6,225 puntos de conocimiento organizados en una taxonomía de seis capas. Cubriendo cinco formatos de preguntas con dificultades y anotaciones de año, permite una evaluación integral para capturar la medida en que los MLLM funcionan en cuatro dimensiones: 1) Niveles de dificultad, 2) cambios temporales (intermedios), 3) cambios contextuales y 4) razonamiento basado en el conocimiento. Proponemos un nuevo marco de evaluación dinámica que introduce cambios de forma visual, textual y de preguntas desconocido para desafiar la generalización del modelo al tiempo que mejora la objetividad de referencia y la longevidad mediante la mitigación de la contaminación de datos. Evaluamos aún más la generación de referencia de referencia de punto de conocimiento (KP-RAG) para examinar el papel del conocimiento en la resolución de problemas. Los hallazgos clave revelan limitaciones en los MLLM actuales en múltiples aspectos y brindan orientación para mejorar la robustez del modelo, la interpretabilidad y la educación asistida por AI-AI.

Publicado Originalme en export.arxiv.org El 11 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web