Evaluación de modelos de lenguaje grandes en descubrimiento científico

Resumen: Los modelos de lenguaje grande (LLM) se aplican cada vez más a la investigación científica, sin embargo, los puntos de referencia científicos predominantes investigan el conocimiento descontextualizado y pasan por alto el razonamiento iterativo, la generación de hipótesis y la interpretación de las observaciones que impulsan el descubrimiento científico. Presentamos un punto de referencia basado en escenarios que evalúa los LLM en biología, química, materiales y física, donde los expertos en el dominio definen proyectos de investigación de interés genuino y los descomponen en escenarios de investigación modulares de los cuales se toman muestras de preguntas examinadas. El marco evalúa los modelos en dos niveles: (i) precisión a nivel de pregunta en elementos vinculados a escenarios y (ii) desempeño a nivel de proyecto, donde los modelos deben proponer hipótesis comprobables, diseñar simulaciones o experimentos e interpretar resultados. La aplicación de este marco de evaluación de descubrimientos científicos (SDE) de dos fases a los LLM de última generación revela una brecha de desempeño constante en relación con los puntos de referencia científicos generales, un rendimiento decreciente de la ampliación del tamaño y el razonamiento de los modelos, y debilidades sistemáticas compartidas entre los modelos de primer nivel de diferentes proveedores. La gran variación de rendimiento en los escenarios de investigación conduce a cambios en las elecciones del modelo de mejor rendimiento en los proyectos de descubrimiento científico evaluados, lo que sugiere que todos los LLM actuales están distantes de la “superinteligencia” científica general. Sin embargo, los LLM ya resultan prometedores en una gran variedad de proyectos de descubrimiento científico, incluidos casos en los que las puntuaciones de los escenarios constituyentes son bajas, lo que destaca el papel de la exploración guiada y la casualidad en el descubrimiento. Este marco SDE ofrece un punto de referencia reproducible para la evaluación de LLM relevante para el descubrimiento y traza caminos prácticos para avanzar en su desarrollo hacia el descubrimiento científico.

Publicado originalmente en export.arxiv.org el 18 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

OpenStx Foundation se lanza para estandarizar el protocolo de próxima generación para la inalámbrica industrial

AERIS expande su plataforma IoT Acelerator para proporcionar a las empresas globales orquestaciones y visibilidad y control de plataforma de ESIM entre los operadores entre los operadores

Jimi Hendrix era ingeniero de sistemas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido