Resumen:Presentamos ResearchGym, un entorno de ejecución y referencia para evaluar agentes de IA en investigaciones de un extremo a otro. Para ejemplificar esto, reutilizamos cinco artículos orales y destacados de ICML, ICLR y ACL. Del repositorio de cada artículo, conservamos los conjuntos de datos, el arnés de evaluación y las implementaciones de referencia, pero retenemos el método propuesto en el artículo. Esto da como resultado cinco entornos de tareas en contenedores que comprenden 39 subtareas en total. Dentro de cada entorno, los agentes deben proponer hipótesis novedosas, realizar experimentos e intentar superar fuertes bases humanas en las métricas del artículo. En una evaluación controlada de un agente impulsado por GPT-5, observamos una marcada brecha entre capacidad y confiabilidad. El agente mejora las líneas de base proporcionadas por el repositorio en solo 1 de 15 evaluaciones (6,7%) en un 11,5% y completa solo el 26,5% de las subtareas en promedio. Identificamos modos de fracaso recurrentes a largo plazo, que incluyen impaciencia, mala gestión del tiempo y de los recursos, exceso de confianza en hipótesis débiles, dificultad para coordinar experimentos paralelos y límites estrictos de la duración del contexto. Sin embargo, en una sola ejecución, el agente supera la solución de una tarea de ICML 2025 Spotlight, lo que indica que los agentes fronterizos ocasionalmente pueden alcanzar un rendimiento de última generación, pero lo hacen de manera poco confiable. También evaluamos andamios de agentes propietarios, incluidos Claude Code (Opus-4.5) y Codex (GPT-5.2), que muestran una brecha similar. ResearchGym proporciona infraestructura para la evaluación y el análisis sistemáticos de agentes autónomos en investigaciones de circuito cerrado.
Publicado originalmente en export.arxiv.org el 17 de febrero de 2026.
Ver fuente original
