En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Juzgar a los jueces: una evaluación sistemática de las estrategias de mitigación de sesgos en los procesos de LLM como juez

Juzgar a los jueces: una evaluación sistemática de las estrategias de mitigación de sesgos en los procesos de LLM como juez

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El LLM como juez se ha convertido en el paradigma dominante para evaluar los resultados de los modelos lingüísticos; sin embargo, los jueces del LLM exhiben sesgos sistemáticos que comprometen la confiabilidad de la evaluación. Presentamos un estudio empírico integral que compara nueve estrategias de eliminación de sesgos en cinco modelos de jueces de cuatro familias de proveedores (Google, Anthropic, OpenAI, Meta), tres puntos de referencia (MT-Bench n=400, LLMBar n=200, personalizado n=225) y cuatro tipos de sesgos. Nuestros hallazgos clave: (1) El sesgo de estilo es el sesgo dominante (0,76-0,92 en todos los modelos), superando con creces el sesgo de posición (<= 0,04), pero ha recibido una atención mínima en la investigación. (2) Todos los modelos muestran una preferencia por la concisión en los pares de expansión, pero los controles de truncamiento confirman que distinguen correctamente la calidad de la longitud (precisión de 0,92-1,00), lo que sugiere una evaluación sensible a la calidad en lugar de un simple sesgo de longitud. (3) La eliminación de sesgos es beneficiosa pero depende del modelo: la estrategia presupuestaria combinada mejora significativamente Claude Sonnet 4 en +11,2 pp (p < 0,0001), con tendencias direccionalmente positivas para otros modelos. Sólo 2 de 20 configuraciones no básicas muestran una menor concordancia. Publicamos nuestro marco de evaluación, conjunto de datos controlados y todos los artefactos experimentales en esta URL https.

Publicado originalmente en export.arxiv.org el 27 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web