Resumen:La evaluación de modelos de lenguaje grandes requiere miles de elementos de referencia, lo que hace que las evaluaciones sean costosas y lentas. Los métodos existentes calculan la precisión promedio en conjuntos de elementos fijos, tratando todos los elementos por igual a pesar de la diferente calidad e información. Presentamos ATLAS, un marco de prueba adaptativo que utiliza la teoría de respuesta al ítem (IRT) para estimar la capacidad del modelo a través de la selección de ítems guiada por información de Fisher. Nuestro análisis de cinco puntos de referencia principales revela que entre el 3% y el 6% de los ítems exhiben discriminación negativa, lo que indica errores de anotación que corrompen la evaluación estática. ATLAS logra una reducción de ítems del 90 % manteniendo la precisión de la medición: en HellaSwag (5608 ítems), igualamos las estimaciones de referencia completas utilizando solo 42 ítems con 0,154 MAE. Nuestro marco mantiene tasas de exposición de artículos por debajo del 10% y una superposición de pruebas entre 16% y 27%, en comparación con los puntos de referencia estáticos donde cada modelo ve todos los artículos (100% de exposición). Entre más de 4000 modelos probados, los rangos IRT difieren de los rangos de precisión: los modelos con la misma precisión obtienen puntuaciones IRT diferentes y entre el 23 y el 31 % de todos los modelos cambian en más de 10 posiciones de rango. Los bancos de códigos y artículos calibrados están disponibles en esta URL https.

Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original

Pruebas adaptativas para la evaluación de LLM: una alternativa psicométrica a los puntos de referencia estáticos

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Sobre el papel de los expertos en dominios en la creación de sistemas de tutoría efectivos

¿Es esta la cuadrícula eléctrica del futuro?

Mica: Asistente de coordinación industrial de múltiples agentes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido