Modelado probabilístico generalizado y una estimación de incertidumbre mejorada en LLM-AS-A-A-Judge comparativo

Resumen: Este documento explora el modelado probabilístico generalizado y la estimación de la incertidumbre en los marcos comparativos de LLM-AS-A-Judge. Mostramos que los métodos existentes del producto de expertos son casos específicos de un marco más amplio, lo que permite diversas opciones de modelado. Además, proponemos mejores estimaciones de incertidumbre para las comparaciones individuales, permitiendo una selección más eficiente y logrando un rendimiento sólido con menos evaluaciones. También presentamos un método para estimar la incertidumbre general de clasificación. Finalmente, demostramos que combinar la puntuación absoluta y comparativa mejora el rendimiento. Los experimentos muestran que el modelo experto específico tiene un impacto limitado en las clasificaciones finales, pero nuestras estimaciones de incertidumbre propuestas, especialmente la probabilidad de reordenar, mejoran significativamente la eficiencia de los sistemas que reducen el número de comparaciones necesarias en ~ 50%. Además, las métricas de incertidumbre a nivel de clasificación se pueden usar para identificar predicciones de bajo rendimiento, donde la naturaleza del modelo probabilístico tiene un impacto notable en la calidad de la incertidumbre general.

Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El conocimiento indígena cumple con la inteligencia artificial

Inmind: Evaluación de LLM para capturar y aplicar estilos de razonamiento humano individual

José-Carlos Mariátegui: Beyond Project Cybersyn: Rastreando la influencia de los proyectos e ideas de cerveza de Stafford en América Latina

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido