Oibench: Benchmarking Modelos de razonamiento fuertes con Olimpíada en Informática

Resumen: A medida que los modelos se vuelven cada vez más sofisticados, los puntos de referencia de algoritmos convencionales están cada vez más saturados, subrayando la necesidad de puntos de referencia más desafiantes para guiar mejoras futuras en el razonamiento algorítmico. Este documento presenta a Oibench, un conjunto de datos informático de nivel privado, privado y desafiante de la Olimpiada que comprende 250 problemas originales cuidadosamente seleccionados. Detaltamos la metodología de construcción del punto de referencia, asegurando una evaluación integral en varios paradigmas y complejidades de programación, y demostramos sus propiedades resistentes a la contaminación a través de experimentos. Proponemos curvas de finalización de tiempo/espacio para el análisis de eficiencia de grano más fino y permitimos comparaciones directas de modelos humanos a través de evaluaciones de participantes de alto nivel. Nuestros experimentos revelan que, si bien los modelos de código abierto se retrasan detrás de las contrapartes de código cerrado, los modelos SOTA actuales ya superan a la mayoría de los participantes humanos en corrección y eficiencia, al tiempo que son subóptimos en comparación con las soluciones canónicas. Al liberar a Oibench como un recurso de código abierto (esta URL HTTPS), esperamos que este punto de referencia contribuya a avanzar en las capacidades de razonamiento del código para futuros LLM.

Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mida lo que importa: evaluación psicométrica de la IA con pruebas de juicio situacional

Evaluación probabilística basada en datos de propiedades lógicas con confianza PAC en máquinas Mealy

Waymo podría hacer que tu próximo auto sea autónomo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido