En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->MSQA: Benchmarking LLMS sobre razonamiento y conocimiento de ciencias de los materiales a nivel de posgrado

MSQA: Benchmarking LLMS sobre razonamiento y conocimiento de ciencias de los materiales a nivel de posgrado

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: a pesar de los avances recientes en modelos de idiomas grandes (LLM) para la ciencia de los materiales, hay una falta de puntos de referencia para evaluar su conocimiento específico de dominio y sus habilidades de razonamiento complejas. Para cerrar esta brecha, presentamos MSQA, un punto de referencia de evaluación integral de 1,757 preguntas de ciencia de materiales a nivel de posgrado en dos formatos: respuestas explicativas detalladas y evaluaciones verdaderas/falsas binarias. MSQA desafía distintivamente los LLM al requerir un conocimiento fáctico preciso y un razonamiento de múltiples pasos en siete subcampos de ciencia de materiales, como las relaciones de propiedad de estructura, los procesos de síntesis y el modelado computacional. A través de experimentos con 10 LLM de última generación, identificamos brechas significativas en el rendimiento actual de LLM. Mientras que las LLM propietarias basadas en API alcanzan una precisión de hasta un 84.5%, los LLM de código abierto (OSS) alcanzan un máximo de alrededor del 60,5%, y los LLM específicos del dominio a menudo tienen un rendimiento inferior significativamente debido al sobreajuste y los cambios de distribución. MSQA representa el primer punto de referencia para evaluar conjuntamente las capacidades de razonamiento y de razonamiento de LLMS cruciales para LLM en la ciencia avanzada de materiales.

Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web