El primer examen del científicos: sondeo de habilidades cognitivas de MLLM a través de la percepción, la comprensión y el razonamiento

Resumen: Los descubrimientos científicos se basan cada vez más en un razonamiento multimodal complejo basado en datos científicos intensivos en información y experiencia específica del dominio. Empoderado por puntos de referencia científicos de nivel experto, los modelos científicos de lenguaje grande (MLLMS) tienen el potencial de mejorar significativamente este proceso de descubrimiento en flujos de trabajo realistas. Sin embargo, los puntos de referencia científicos actuales se centran principalmente en evaluar las capacidades de comprensión del conocimiento de los MLLM, lo que lleva a una evaluación inadecuada de sus habilidades de percepción y razonamiento. Para abordar esta brecha, presentamos el primer punto de referencia del examen de los científicos (SFE), diseñado para evaluar las capacidades cognitivas científicas de los MLLM a través de tres niveles interconectados: percepción de la señal científica, comprensión de atributos científicos, razonamiento comparativo científico. Específicamente, SFE comprende 830 pares VQA verificados por expertos en tres tipos de preguntas, que abarcan 66 tareas multimodales en cinco disciplinas de alto valor. Extensos experimentos revelan que GPT-O3 y InternvL-3 de estado de arte actual logran solo 34.08% y 26.52% en SFE, lo que destaca un espacio significativo para que los MLLM mejoren en los ámbitos científicos. Esperamos que las ideas obtenidas en SFE faciliten más desarrollos en descubrimientos científicos mejorados por AI.

Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

FlashInfer-Bench: Construyendo el círculo virtuoso para sistemas LLM impulsados ​​por IA

Mesas redondas: dentro del imperio de OpenAi con Karen Hao

Michael Dershem: Predicciones sanitarias para 2026: IA, blockchain y el auge de la innovación descentralizada

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

FlashInfer-Bench: Construyendo el círculo virtuoso para sistemas LLM impulsados por IA