Resumen:La evaluación de modelos de lenguaje grandes requiere miles de elementos de referencia, lo que hace que las evaluaciones sean costosas y lentas. Los métodos existentes calculan la precisión promedio en conjuntos de elementos fijos, tratando todos los elementos por igual a pesar de la diferente calidad e información. Presentamos ATLAS, un marco de prueba adaptativo que utiliza la teoría de respuesta al ítem (IRT) para estimar la capacidad del modelo a través de la selección de ítems guiada por información de Fisher. Nuestro análisis de cinco puntos de referencia principales revela que entre el 3% y el 6% de los ítems exhiben discriminación negativa, lo que indica errores de anotación que corrompen la evaluación estática. ATLAS logra una reducción de ítems del 90 % manteniendo la precisión de la medición: en HellaSwag (5608 ítems), igualamos las estimaciones de referencia completas utilizando solo 42 ítems con 0,154 MAE. Nuestro marco mantiene tasas de exposición de artículos por debajo del 10% y una superposición de pruebas entre 16% y 27%, en comparación con los puntos de referencia estáticos donde cada modelo ve todos los artículos (100% de exposición). Entre más de 4000 modelos probados, los rangos IRT difieren de los rangos de precisión: los modelos con la misma precisión obtienen puntuaciones IRT diferentes y entre el 23 y el 31 % de todos los modelos cambian en más de 10 posiciones de rango. Los bancos de códigos y artículos calibrados están disponibles en esta URL https.
Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original
