Resumen: Enfoques contemporáneos para el descubrimiento científico asistido utilizan modelos de lenguaje para generar automáticamente un gran número de hipótesis potencial para probar, al tiempo que generan automáticamente experimentos basados en código para probar esas hipótesis. Si bien las hipótesis pueden ser relativamente económicas de generar, los experimentos automatizados pueden ser costosos, particularmente cuando se ejecutan a escala (es decir, miles de experimentos). Desarrollar la capacidad de filtrar hipótesis en función de su viabilidad permitiría que los sistemas de descubrimiento funcionen a escala, al tiempo que aumentan su probabilidad de hacer descubrimientos significativos. En este trabajo presentamos un conjunto de datos de desafío para determinar la viabilidad de las hipótesis enmarcadas como afirmaciones. El hecho de hecho incluye 8.4k reclamos extraídos de artículos científicos que abarcan cuatro temas de ciencia de materiales contemporáneos de alto impacto, incluidos superconductores, semiconductores, baterías y materiales aeroespaciales, al tiempo que incluyen reclamos cualitativos y cuantitativos de resultados teóricos, experimentales y de código/simulación. Mostramos que las líneas de base fuertes que incluyen la generación de recuperación aumentada sobre la literatura científica y la generación de códigos no pueden superar el 72% del rendimiento en esta tarea (el rendimiento del azar es del 50%), mientras que la verificación de dominio-experto sugiere que casi todos son solucionables, destacando tanto la dificultad de esta tarea para los modelos actuales como el potencial para acelerar el descubrimiento científico al hacer un progreso casi a plazo.
Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original