En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Evaluación de modelos de lenguaje grandes en descubrimiento científico

Evaluación de modelos de lenguaje grandes en descubrimiento científico

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLM) se aplican cada vez más a la investigación científica, sin embargo, los puntos de referencia científicos predominantes investigan el conocimiento descontextualizado y pasan por alto el razonamiento iterativo, la generación de hipótesis y la interpretación de las observaciones que impulsan el descubrimiento científico. Presentamos un punto de referencia basado en escenarios que evalúa los LLM en biología, química, materiales y física, donde los expertos en el dominio definen proyectos de investigación de interés genuino y los descomponen en escenarios de investigación modulares de los cuales se toman muestras de preguntas examinadas. El marco evalúa los modelos en dos niveles: (i) precisión a nivel de pregunta en elementos vinculados a escenarios y (ii) desempeño a nivel de proyecto, donde los modelos deben proponer hipótesis comprobables, diseñar simulaciones o experimentos e interpretar resultados. La aplicación de este marco de evaluación de descubrimientos científicos (SDE) de dos fases a los LLM de última generación revela una brecha de desempeño constante en relación con los puntos de referencia científicos generales, un rendimiento decreciente de la ampliación del tamaño y el razonamiento de los modelos, y debilidades sistemáticas compartidas entre los modelos de primer nivel de diferentes proveedores. La gran variación de rendimiento en los escenarios de investigación conduce a cambios en las elecciones del modelo de mejor rendimiento en los proyectos de descubrimiento científico evaluados, lo que sugiere que todos los LLM actuales están distantes de la “superinteligencia” científica general. Sin embargo, los LLM ya resultan prometedores en una gran variedad de proyectos de descubrimiento científico, incluidos casos en los que las puntuaciones de los escenarios constituyentes son bajas, lo que destaca el papel de la exploración guiada y la casualidad en el descubrimiento. Este marco SDE ofrece un punto de referencia reproducible para la evaluación de LLM relevante para el descubrimiento y traza caminos prácticos para avanzar en su desarrollo hacia el descubrimiento científico.

Publicado originalmente en export.arxiv.org el 18 de diciembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web