MatSciBench: Evaluación comparativa de la capacidad de razonamiento de modelos de lenguaje grandes en ciencia de materiales

Resumen: Los modelos de lenguaje grande (LLM) han demostrado habilidades notables en el razonamiento científico, pero sus capacidades de razonamiento en la ciencia de los materiales siguen sin explorarse. Para llenar este vacío, presentamos MatSciBench, un punto de referencia integral de nivel universitario que comprende 1340 problemas que abarcan las subdisciplinas esenciales de la ciencia de materiales. MatSciBench presenta una taxonomía estructurada y detallada que clasifica las preguntas de ciencia de materiales en 6 campos principales y 31 subcampos, e incluye una clasificación de dificultad de tres niveles basada en la longitud del razonamiento requerido para resolver cada pregunta. MatSciBench proporciona soluciones de referencia detalladas que permiten un análisis de errores preciso e incorpora razonamiento multimodal a través de contextos visuales en numerosas preguntas. Las evaluaciones de modelos líderes revelan que incluso el modelo de mayor rendimiento, Gemini-2.5-Pro, logra menos del 80 % de precisión en preguntas de ciencia de materiales de nivel universitario, lo que destaca la complejidad de MatSciBench. Nuestro análisis sistemático de diferentes estrategias de razonamiento (cadena de pensamiento básica, aumento de herramientas y autocorrección) demuestra que ningún método sobresale consistentemente en todos los escenarios. Además, analizamos el rendimiento por nivel de dificultad, examinamos las compensaciones entre eficiencia y precisión, destacamos los desafíos inherentes a las tareas de razonamiento multimodal, analizamos los modos de falla en los LLM y los métodos de razonamiento, y evaluamos la influencia de la generación de recuperación aumentada. MatSciBench establece así un punto de referencia integral y sólido para evaluar e impulsar mejoras en las capacidades de razonamiento científico de los LLM dentro del dominio de la ciencia de materiales.

Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Capacitar agentes de LLM para empoderar a los humanos

Huawei ha provocado socios europeos y votos para profundizar la colaboración

Descubrimiento de heurísticas con modelos de lenguajes grandes (LLM) para programas enteros mixtos: programación en una sola máquina

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido