Resumen: Los puntos de referencia de la Inteligencia Artificial (IA) desempeñan un papel central a la hora de medir el progreso en el desarrollo de modelos y guiar las decisiones de implementación. Sin embargo, muchos puntos de referencia se saturan rápidamente, lo que significa que ya no pueden diferenciar entre los modelos de mejor rendimiento, lo que disminuye su valor a largo plazo. En este estudio, analizamos la saturación de los puntos de referencia en 60 puntos de referencia de modelos de lenguaje grande (LLM) seleccionados de informes técnicos de los principales desarrolladores de modelos. Para identificar los factores que impulsan la saturación, caracterizamos los puntos de referencia según 14 propiedades que abarcan el diseño de tareas, la construcción de datos y el formato de evaluación. Probamos cinco hipótesis examinando cómo cada propiedad contribuye a las tasas de saturación. Nuestro análisis revela que casi la mitad de los índices de referencia muestran saturación, y las tasas aumentan a medida que los índices de referencia envejecen. En particular, ocultar datos de pruebas (es decir, públicos versus privados) no muestra ningún efecto protector, mientras que los puntos de referencia seleccionados por expertos resisten la saturación mejor que los de colaboración colectiva. Nuestros hallazgos resaltan qué opciones de diseño extienden la longevidad del punto de referencia e informan estrategias para una evaluación más duradera.
Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original
