En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Pruebas adaptativas para la evaluación de LLM: una alternativa psicométrica a los puntos de referencia estáticos

Pruebas adaptativas para la evaluación de LLM: una alternativa psicométrica a los puntos de referencia estáticos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La evaluación de modelos de lenguaje grandes requiere miles de elementos de referencia, lo que hace que las evaluaciones sean costosas y lentas. Los métodos existentes calculan la precisión promedio en conjuntos de elementos fijos, tratando todos los elementos por igual a pesar de la diferente calidad e información. Presentamos ATLAS, un marco de prueba adaptativo que utiliza la teoría de respuesta al ítem (IRT) para estimar la capacidad del modelo a través de la selección de ítems guiada por información de Fisher. Nuestro análisis de cinco puntos de referencia principales revela que entre el 3% y el 6% de los ítems exhiben discriminación negativa, lo que indica errores de anotación que corrompen la evaluación estática. ATLAS logra una reducción de ítems del 90 % manteniendo la precisión de la medición: en HellaSwag (5608 ítems), igualamos las estimaciones de referencia completas utilizando solo 42 ítems con 0,154 MAE. Nuestro marco mantiene tasas de exposición de artículos por debajo del 10% y una superposición de pruebas entre 16% y 27%, en comparación con los puntos de referencia estáticos donde cada modelo ve todos los artículos (100% de exposición). Entre más de 4000 modelos probados, los rangos IRT difieren de los rangos de precisión: los modelos con la misma precisión obtienen puntuaciones IRT diferentes y entre el 23 y el 31 % de todos los modelos cambian en más de 10 posiciones de rango. Los bancos de códigos y artículos calibrados están disponibles en esta URL https.

Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web