Resumen: La evaluación por pares de modelos de lenguaje grande (LLMS) es un paradigma común, pero es propenso al sesgo de preferencia, donde los jueces favorecen sistemáticamente ciertas salidas, como las las suyas. Este sesgo lleva a clasificaciones inconsistentes y sesgadas en diferentes jueces. Para abordar esto, primero demostramos empíricamente sesgos significativos y heterogéneos en las evaluaciones de modelos cruzados. Luego proponemos UDA (alineación de debiasing sin supervisión), un marco que reduce el desacuerdo entre jueces al ajustar dinámicamente el sistema de calificación ELO. Para cada comparación por pares, una red neuronal compacta aprende a establecer adaptativamente el factor K y refinar las probabilidades de ganar. Crucialmente, UDA opera de una manera totalmente sin supervisión, guiada únicamente por el objetivo de minimizar la dispersión entre las trayectorias ELO de todos los jueces. Esto obliga a una alineación hacia un consenso colectivo, que sirve como un proxy no supervisado para una evaluación más estable y reproducible. Además, proporcionamos una motivación teórica que demuestra cómo la alineación hacia un consenso puede reducir el sesgo del sistema agregado. Los experimentos muestran que UDA reduce significativamente la desviación estándar de calificación entre jueces hasta en un 63.4% y mejora la correlación promedio con los juicios humanos en un 24.7%. En particular, UDA eleva el rendimiento de los jueces de bajo rendimiento para lograr la paridad con los de alta calidad, fomentando un ecosistema de evaluación más robusto y confiable. El código y los datos están disponibles en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original