Resumen: Los agentes de ciencia de datos prometen acelerar el descubrimiento y la generación de conocimientos al convertir los datos en análisis y hallazgos ejecutables. Sin embargo, los puntos de referencia existentes en ciencia de datos se quedan cortos debido a las interfaces de evaluación fragmentadas que dificultan la comparación entre puntos de referencia, la estrecha cobertura de tareas y la falta de una base de datos rigurosa. En particular, mostramos que una parte sustancial de las tareas en los puntos de referencia actuales se pueden resolver sin utilizar datos reales. Para abordar estas limitaciones, presentamos DSGym, un marco estandarizado para evaluar y capacitar agentes de ciencia de datos en entornos de ejecución autónomos. A diferencia de los puntos de referencia estáticos, DSGym proporciona una arquitectura modular que facilita la adición de tareas, andamios de agentes y herramientas, posicionándolo como un banco de pruebas extensible y en vivo. Seleccionamos DSGym-Tasks, un conjunto de tareas holístico que estandariza y refina los puntos de referencia existentes mediante filtrado de calidad y resolución de atajos. Ampliamos aún más la cobertura con (1) DSBio: tareas bioinformáticas derivadas de expertos basadas en la literatura y (2) DSPredict: tareas de predicción desafiantes que abarcan dominios como la visión por computadora, la predicción molecular y la perturbación unicelular. Más allá de la evaluación, DSGym permite la capacitación de agentes a través de un proceso de síntesis de datos con ejecución verificada. Como estudio de caso, creamos un conjunto de entrenamiento de 2000 ejemplos y entrenamos un modelo 4B en DSGym que supera a GPT-4o en puntos de referencia de análisis estandarizados. En general, DSGym permite una medición rigurosa de un extremo a otro de si los agentes pueden planificar, implementar y validar análisis de datos en un contexto científico realista.
Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original
