En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Medición de capacidades científicas de modelos de lenguaje con un laboratorio seco de biología de sistemas

Medición de capacidades científicas de modelos de lenguaje con un laboratorio seco de biología de sistemas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Diseño de experimentos e interpretaciones de resultados son competencias científicas centrales, particularmente en biología, donde los investigadores perturban sistemas complejos para descubrir los sistemas subyacentes. Los esfuerzos recientes para evaluar las capacidades científicas de los modelos de idiomas grandes (LLM) no pueden probar estas competencias porque la experimentación con laboratorio húmedo es prohibitivamente costosa: en experiencia, tiempo y equipo. Introducimos Scigym, un primer punto de referencia que evalúa las habilidades iterativas de diseño y análisis de experimentos de LLMS en tareas de descubrimiento científico abierto. Scigym supera el desafío de los costos de laboratorio húmedo al ejecutar un laboratorio seco de sistemas biológicos. Estos modelos, codificados en el lenguaje de marcado de biología de sistemas, son eficientes para generar datos simulados, lo que los convierte en tallas ideales para la experimentación en sistemas realistas complejos. Evaluamos seis LLM de Frontier en 137 pequeños sistemas y lanzamos un total de 350 sistemas. Nuestra evaluación muestra que, si bien los modelos más capaces demostraron un rendimiento superior, el rendimiento de todos los modelos disminuyó significativamente a medida que aumentó la complejidad del sistema, lo que sugiere un margen sustancial para mejorar las capacidades científicas de los agentes de LLM.

Publicado Originalme en export.arxiv.org El 3 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web