Resumen: Este documento explora el modelado probabilístico generalizado y la estimación de la incertidumbre en los marcos comparativos de LLM-AS-A-Judge. Mostramos que los métodos existentes del producto de expertos son casos específicos de un marco más amplio, lo que permite diversas opciones de modelado. Además, proponemos mejores estimaciones de incertidumbre para las comparaciones individuales, permitiendo una selección más eficiente y logrando un rendimiento sólido con menos evaluaciones. También presentamos un método para estimar la incertidumbre general de clasificación. Finalmente, demostramos que combinar la puntuación absoluta y comparativa mejora el rendimiento. Los experimentos muestran que el modelo experto específico tiene un impacto limitado en las clasificaciones finales, pero nuestras estimaciones de incertidumbre propuestas, especialmente la probabilidad de reordenar, mejoran significativamente la eficiencia de los sistemas que reducen el número de comparaciones necesarias en ~ 50%. Además, las métricas de incertidumbre a nivel de clasificación se pueden usar para identificar predicciones de bajo rendimiento, donde la naturaleza del modelo probabilístico tiene un impacto notable en la calidad de la incertidumbre general.
Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original