VLM@School - Evaluación de la comprensión de la imagen de IA sobre el conocimiento alemán de la escuela secundaria | Asociación Mexicana del Internet de las Cosas A.C.

Resumen: Este documento presenta un nuevo conjunto de datos de referencia diseñado para evaluar las capacidades de los modelos de lenguaje de visión (VLMS) en tareas que combinan el razonamiento visual con el conocimiento de fondo específico del sujeto en el idioma alemán. A diferencia de los puntos de referencia en inglés ampliamente utilizados que a menudo dependen de problemas artificialmente difíciles o descontextualizados, este conjunto de datos se basa en los planes de estudio de la escuela intermedia real en nueve dominios, incluidas las matemáticas, la historia, la biología y la religión. El punto de referencia incluye más de 2,000 preguntas abiertas basadas en 486 imágenes, lo que garantiza que los modelos deben integrar la interpretación visual con el razonamiento objetivo en lugar de confiar en señales textuales superficiales. Evaluamos trece VLM de peso abierto de última generación en múltiples dimensiones, incluida la precisión y el rendimiento específicos del dominio en preguntas artesanales adversas. Nuestros hallazgos revelan que incluso los modelos más fuertes logran menos del 45% de precisión general, con un rendimiento particularmente pobre en la música, las matemáticas y los entornos adversos. Además, los resultados indican discrepancias significativas entre el éxito en los puntos de referencia populares y la comprensión multimodal del mundo real. Concluimos que las tareas a nivel de escuela intermedia ofrecen una vía significativa y subutilizada para las VLM de pruebas de estrés, especialmente en contextos no inglés. El protocolo de conjunto de datos y de evaluación sirve como un riguroso lecho de prueba para comprender mejor y mejorar las capacidades de razonamiento visual y lingüística de los futuros sistemas de IA.

Publicado Originalme en rss.arxiv.org El 15 de junio de 2025.
Ver Fuente Original

VLM@School – Evaluación de la comprensión de la imagen de IA sobre el conocimiento alemán de la escuela secundaria

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Hacia la evaluación y selección automática de modelos de desidentificación de PHI mediante la colaboración de múltiples agentes

Encontrar su musa: motor de soluciones inesperadas de minería

GBV-SQL: Generación guiada y validación de traducción posterior de SQL2Text para Text2SQL de múltiples agentes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido