Resumen: Este documento presenta un nuevo conjunto de datos de referencia diseñado para evaluar las capacidades de los modelos de lenguaje de visión (VLMS) en tareas que combinan el razonamiento visual con el conocimiento de fondo específico del sujeto en el idioma alemán. A diferencia de los puntos de referencia en inglés ampliamente utilizados que a menudo dependen de problemas artificialmente difíciles o descontextualizados, este conjunto de datos se basa en los planes de estudio de la escuela intermedia real en nueve dominios, incluidas las matemáticas, la historia, la biología y la religión. El punto de referencia incluye más de 2,000 preguntas abiertas basadas en 486 imágenes, lo que garantiza que los modelos deben integrar la interpretación visual con el razonamiento objetivo en lugar de confiar en señales textuales superficiales. Evaluamos trece VLM de peso abierto de última generación en múltiples dimensiones, incluida la precisión y el rendimiento específicos del dominio en preguntas artesanales adversas. Nuestros hallazgos revelan que incluso los modelos más fuertes logran menos del 45% de precisión general, con un rendimiento particularmente pobre en la música, las matemáticas y los entornos adversos. Además, los resultados indican discrepancias significativas entre el éxito en los puntos de referencia populares y la comprensión multimodal del mundo real. Concluimos que las tareas a nivel de escuela intermedia ofrecen una vía significativa y subutilizada para las VLM de pruebas de estrés, especialmente en contextos no inglés. El protocolo de conjunto de datos y de evaluación sirve como un riguroso lecho de prueba para comprender mejor y mejorar las capacidades de razonamiento visual y lingüística de los futuros sistemas de IA.
Publicado Originalme en rss.arxiv.org El 15 de junio de 2025.
Ver Fuente Original