Cantidad: un punto de referencia para verificar la viabilidad de las afirmaciones respaldadas por la literatura en la ciencia de los materiales

Resumen: Enfoques contemporáneos para el descubrimiento científico asistido utilizan modelos de lenguaje para generar automáticamente un gran número de hipótesis potencial para probar, al tiempo que generan automáticamente experimentos basados en código para probar esas hipótesis. Si bien las hipótesis pueden ser relativamente económicas de generar, los experimentos automatizados pueden ser costosos, particularmente cuando se ejecutan a escala (es decir, miles de experimentos). Desarrollar la capacidad de filtrar hipótesis en función de su viabilidad permitiría que los sistemas de descubrimiento funcionen a escala, al tiempo que aumentan su probabilidad de hacer descubrimientos significativos. En este trabajo presentamos un conjunto de datos de desafío para determinar la viabilidad de las hipótesis enmarcadas como afirmaciones. El hecho de hecho incluye 8.4k reclamos extraídos de artículos científicos que abarcan cuatro temas de ciencia de materiales contemporáneos de alto impacto, incluidos superconductores, semiconductores, baterías y materiales aeroespaciales, al tiempo que incluyen reclamos cualitativos y cuantitativos de resultados teóricos, experimentales y de código/simulación. Mostramos que las líneas de base fuertes que incluyen la generación de recuperación aumentada sobre la literatura científica y la generación de códigos no pueden superar el 72% del rendimiento en esta tarea (el rendimiento del azar es del 50%), mientras que la verificación de dominio-experto sugiere que casi todos son solucionables, destacando tanto la dificultad de esta tarea para los modelos actuales como el potencial para acelerar el descubrimiento científico al hacer un progreso casi a plazo.

Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Agentes de investigación de IA para el aprendizaje automático: búsqueda, exploración y generalización en MLE-Bench

Repensar la evaluación de preferencias humanas de los racionales de LLM

CompactPrompt: un canal unificado para la compresión rápida de datos en flujos de trabajo de LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido