En armonía con gpt-oss

Resumen:Nadie ha reproducido de forma independiente las puntuaciones publicadas por OpenAI para gpt-oss-20b con herramientas, porque el artículo original no revela ni las herramientas ni el arnés del agente. Realizamos ingeniería inversa en las herramientas de distribución del modelo: cuando se le solicita sin definiciones de herramientas, gpt-oss todavía llama a herramientas de su distribución de entrenamiento con alta confianza estadística: un fuerte previo, no una alucinación. Luego construimos un arnés de agente de armonía nativo (esta URL https) que codifica mensajes en el formato nativo del modelo, evitando la conversión con pérdida de Finalizaciones de chat. En conjunto, estos producen la primera reproducción independiente de las puntuaciones publicadas de OpenAI: 60,4% en SWE Verified HIGH (publicado 60,7%), 53,3% MEDIUM (53,2%) y 91,7% en AIME25 con herramientas (90,4%).

Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un gemelo digital colaborativo basado en datos justos e infraestructura de cálculo

Modelos de mundo unificado: planificación y previsión con memoria aumentada para la navegación visual

Deeptravel: un marco de aprendizaje de refuerzo de agente de extremo a extremo para agentes autónomos de planificación de viajes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido