Resumen: ¿Pueden los sistemas de IA entrenados en el registro científico hasta un punto fijo en el tiempo pronosticar los avances científicos que siguen? Esta capacidad podría ayudar a los investigadores a identificar colaboradores y direcciones de investigación impactantes, y anticipar qué problemas y métodos serán centrales a continuación. Presentamos PreScience, un punto de referencia de pronóstico científico que descompone el proceso de investigación en cuatro tareas generativas interdependientes: predicción de colaboradores, selección de trabajos previos, generación de contribuciones y predicción de impacto. PreScience es un conjunto de datos cuidadosamente seleccionado de 98.000 artículos de investigación recientes relacionados con la IA, que presenta identidades de autores no ambiguas, metadatos académicos alineados temporalmente y un gráfico estructurado de historiales de publicaciones y citas de autores complementarios que abarcan un total de 502.000 artículos. Desarrollamos líneas de base y evaluaciones para cada tarea, incluido LACERScore, una novedosa medida de similitud de contribuciones basada en LLM que supera las métricas anteriores y se aproxima al acuerdo entre anotadores. Encontramos un margen de maniobra sustancial en cada tarea, p.e. en la generación de contribuciones, los LLM de frontera logran solo una similitud moderada con la verdad básica (GPT-5, un promedio de 5,6 en una escala de 1 a 10). Cuando se compone de una simulación de 12 meses de la producción científica de un extremo a otro, el corpus sintético resultante es sistemáticamente menos diverso y menos novedoso que la investigación realizada por humanos en el mismo período.
Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original
