Resumen:Nadie ha reproducido de forma independiente las puntuaciones publicadas por OpenAI para gpt-oss-20b con herramientas, porque el artículo original no revela ni las herramientas ni el arnés del agente. Realizamos ingeniería inversa en las herramientas de distribución del modelo: cuando se le solicita sin definiciones de herramientas, gpt-oss todavía llama a herramientas de su distribución de entrenamiento con alta confianza estadística: un fuerte previo, no una alucinación. Luego construimos un arnés de agente de armonía nativo (esta URL https) que codifica mensajes en el formato nativo del modelo, evitando la conversión con pérdida de Finalizaciones de chat. En conjunto, estos producen la primera reproducción independiente de las puntuaciones publicadas de OpenAI: 60,4% en SWE Verified HIGH (publicado 60,7%), 53,3% MEDIUM (53,2%) y 91,7% en AIME25 con herramientas (90,4%).
Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original
