Medición de capacidades científicas de modelos de lenguaje con un laboratorio seco de biología de sistemas

Resumen: Diseño de experimentos e interpretaciones de resultados son competencias científicas centrales, particularmente en biología, donde los investigadores perturban sistemas complejos para descubrir los sistemas subyacentes. Los esfuerzos recientes para evaluar las capacidades científicas de los modelos de idiomas grandes (LLM) no pueden probar estas competencias porque la experimentación con laboratorio húmedo es prohibitivamente costosa: en experiencia, tiempo y equipo. Introducimos Scigym, un primer punto de referencia que evalúa las habilidades iterativas de diseño y análisis de experimentos de LLMS en tareas de descubrimiento científico abierto. Scigym supera el desafío de los costos de laboratorio húmedo al ejecutar un laboratorio seco de sistemas biológicos. Estos modelos, codificados en el lenguaje de marcado de biología de sistemas, son eficientes para generar datos simulados, lo que los convierte en tallas ideales para la experimentación en sistemas realistas complejos. Evaluamos seis LLM de Frontier en 137 pequeños sistemas y lanzamos un total de 350 sistemas. Nuestra evaluación muestra que, si bien los modelos más capaces demostraron un rendimiento superior, el rendimiento de todos los modelos disminuyó significativamente a medida que aumentó la complejidad del sistema, lo que sugiere un margen sustancial para mejorar las capacidades científicas de los agentes de LLM.

Publicado Originalme en export.arxiv.org El 3 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

SyncLipMAE: preentrenamiento enmascarado contrastivo para la representación audiovisual de caras parlantes

La descarga: videos de inteligencia artificial de las agencias de inmigración de EE. UU. y el interior del movimiento Vitalismo

Schemacoder: codificador de extracción de esquema de registro automático con impulso residual Q-Tree

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido