Una piedra de Rosetta para los puntos de referencia de la IA

Resumen: La mayoría de los puntos de referencia de IA se saturan años o incluso meses después de su introducción, lo que dificulta estudiar las tendencias a largo plazo en las capacidades de IA. Para abordar este desafío, construimos un marco estadístico que une los puntos de referencia, colocando las capacidades del modelo y las dificultades de los puntos de referencia en una única escala numérica. Esto actúa como una “Piedra Rosetta”, permitiéndonos comparar modelos en una amplia gama de habilidades y tiempos, incluso si no se evalúan con los mismos puntos de referencia. Además, esto funciona sin asumir cómo evolucionan las capacidades a lo largo del tiempo o con la computación de entrenamiento. Demostramos tres aplicaciones de este marco. En primer lugar, lo utilizamos para medir la velocidad del progreso de la IA a lo largo del tiempo y para pronosticar capacidades futuras de la IA. En segundo lugar, estimamos la tasa de mejoras en la eficiencia algorítmica, encontrando estimaciones que son más altas, pero ampliamente consistentes con trabajos anteriores. Finalmente, descubrimos que nuestro enfoque se puede utilizar para detectar aceleraciones rápidas en el progreso de la IA.

Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Puntuaciones semánticas de F1: evaluación justa bajo límites de clase difusos

SENTINEL: un marco formal multinivel para la evaluación de la seguridad de agentes incorporados basados ​​en LLM

Las emisiones de las aerolíneas europeas se elevan a los niveles previos al covid, el estudio encuentra

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

SENTINEL: un marco formal multinivel para la evaluación de la seguridad de agentes incorporados basados en LLM