Resumen:Evaluar grandes modelos de lenguaje (LLM) como jueces es cada vez más crítico para construir canales de evaluación escalables y confiables. Presentamos ScalingEval, un estudio comparativo a gran escala que compara sistemáticamente 36 LLM, incluidos GPT, Gemini, Claude y Llama, en múltiples categorías de productos utilizando un protocolo de evaluación basado en consenso. Nuestro marco de múltiples agentes agrega auditorías de patrones y códigos de emisión en etiquetas de verdad sobre el terreno mediante votación mayoritaria escalable, lo que permite una comparación reproducible de los evaluadores de LLM sin anotaciones humanas. Aplicado a la recomendación de elementos complementarios a gran escala, el punto de referencia informa cuatro hallazgos clave: (i) Anthropic Claude 3.5 Sonnet logra la mayor confianza en la decisión; (ii) Gemini 1.5 Pro ofrece el mejor rendimiento general en todas las categorías; (iii) GPT-4o proporciona la compensación más favorable entre latencia, precisión y costo; y (iv) GPT-OSS 20B lidera entre los modelos de código abierto. El análisis a nivel de categorías muestra un fuerte consenso en dominios estructurados (Electrónica, Deportes), pero un desacuerdo persistente en categorías de estilos de vida (Ropa, Comida). Estos resultados establecen ScalingEval como un punto de referencia reproducible y un protocolo de evaluación para los LLM como jueces, con orientación práctica sobre escalamiento, confiabilidad y compensaciones de la familia de modelos.
Publicado originalmente en export.arxiv.org el 5 de noviembre de 2025.
Ver fuente original
