Resumen: Mostramos que entrenar agentes de IA en entornos de aprendizaje por refuerzo de alta fidelidad produce capacidades que se generalizan más allá de la distribución del entrenamiento. Presentamos corecraft{}, el primer entorno de textsc{EnterpriseGym}, el conjunto de entornos RL agentes de Surge AI. corecraft{} es una simulación empresarial totalmente operativa de una organización de atención al cliente, que comprende más de 2500 entidades en 14 tipos de entidades con 23 herramientas únicas, diseñada para medir si los agentes de IA pueden realizar el trabajo de múltiples pasos y de dominio específico que exigen los trabajos reales. Los modelos de frontera como GPT-5.2 y Claude Opus 4.6 resuelven menos del 30% de las tareas cuando se deben cumplir todos los criterios de rúbrica elaborados por expertos. Utilizando este entorno, entrenamos GLM~4.6 con optimización de políticas relativas al grupo (GRPO) y recorte adaptativo. Después de una única época de entrenamiento, el modelo mejora del 25,37% al 36,76% la tasa de aprobación de tareas en tareas de evaluación retenidas. Más importante aún, estas ganancias se trasladan a los índices de referencia fuera de la distribución: +4,5% en BFCL Parallel, +7,4% en $tau^2$-Bench Retail y +6,8% en Toolathlon (Pass@1). Creemos que tres propiedades del entorno son consistentes con la transferencia observada: construcción de mundos centrada en tareas que optimiza tareas diversas y desafiantes; rúbricas escritas por expertos que permiten un cálculo confiable de recompensas; y flujos de trabajo empresariales que reflejan patrones profesionales realistas. Nuestros resultados sugieren que la calidad, la diversidad y el realismo del entorno son factores clave que permiten generalizar las capacidades de los agentes.
Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original
