Resumen: Diseño de experimentos e interpretaciones de resultados son competencias científicas centrales, particularmente en biología, donde los investigadores perturban sistemas complejos para descubrir los sistemas subyacentes. Los esfuerzos recientes para evaluar las capacidades científicas de los modelos de idiomas grandes (LLM) no pueden probar estas competencias porque la experimentación con laboratorio húmedo es prohibitivamente costosa: en experiencia, tiempo y equipo. Introducimos Scigym, un primer punto de referencia que evalúa las habilidades iterativas de diseño y análisis de experimentos de LLMS en tareas de descubrimiento científico abierto. Scigym supera el desafío de los costos de laboratorio húmedo al ejecutar un laboratorio seco de sistemas biológicos. Estos modelos, codificados en el lenguaje de marcado de biología de sistemas, son eficientes para generar datos simulados, lo que los convierte en tallas ideales para la experimentación en sistemas realistas complejos. Evaluamos seis LLM de Frontier en 137 pequeños sistemas y lanzamos un total de 350 sistemas. Nuestra evaluación muestra que, si bien los modelos más capaces demostraron un rendimiento superior, el rendimiento de todos los modelos disminuyó significativamente a medida que aumentó la complejidad del sistema, lo que sugiere un margen sustancial para mejorar las capacidades científicas de los agentes de LLM.
Publicado Originalme en export.arxiv.org El 3 de julio de 2025.
Ver Fuente Original