Resumen: La mayoría de los puntos de referencia de IA se saturan años o incluso meses después de su introducción, lo que dificulta estudiar las tendencias a largo plazo en las capacidades de IA. Para abordar este desafío, construimos un marco estadístico que une los puntos de referencia, colocando las capacidades del modelo y las dificultades de los puntos de referencia en una única escala numérica. Esto actúa como una “Piedra Rosetta”, permitiéndonos comparar modelos en una amplia gama de habilidades y tiempos, incluso si no se evalúan con los mismos puntos de referencia. Además, esto funciona sin asumir cómo evolucionan las capacidades a lo largo del tiempo o con la computación de entrenamiento. Demostramos tres aplicaciones de este marco. En primer lugar, lo utilizamos para medir la velocidad del progreso de la IA a lo largo del tiempo y para pronosticar capacidades futuras de la IA. En segundo lugar, estimamos la tasa de mejoras en la eficiencia algorítmica, encontrando estimaciones que son más altas, pero ampliamente consistentes con trabajos anteriores. Finalmente, descubrimos que nuestro enfoque se puede utilizar para detectar aceleraciones rápidas en el progreso de la IA.
Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original
