Resumen: A medida que los modelos se vuelven cada vez más sofisticados, los puntos de referencia de algoritmos convencionales están cada vez más saturados, subrayando la necesidad de puntos de referencia más desafiantes para guiar mejoras futuras en el razonamiento algorítmico. Este documento presenta a Oibench, un conjunto de datos informático de nivel privado, privado y desafiante de la Olimpiada que comprende 250 problemas originales cuidadosamente seleccionados. Detaltamos la metodología de construcción del punto de referencia, asegurando una evaluación integral en varios paradigmas y complejidades de programación, y demostramos sus propiedades resistentes a la contaminación a través de experimentos. Proponemos curvas de finalización de tiempo/espacio para el análisis de eficiencia de grano más fino y permitimos comparaciones directas de modelos humanos a través de evaluaciones de participantes de alto nivel. Nuestros experimentos revelan que, si bien los modelos de código abierto se retrasan detrás de las contrapartes de código cerrado, los modelos SOTA actuales ya superan a la mayoría de los participantes humanos en corrección y eficiencia, al tiempo que son subóptimos en comparación con las soluciones canónicas. Al liberar a Oibench como un recurso de código abierto (esta URL HTTPS), esperamos que este punto de referencia contribuya a avanzar en las capacidades de razonamiento del código para futuros LLM.
Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original