Resumen: Los modelos de idiomas grandes (LLM) se usan ampliamente como jueces automatizados, donde el valor práctico depende de la precisión y los juicios confiables y conscientes del riesgo. Los enfoques existentes se centran predominantemente en la precisión, con vistas a la necesidad de una confianza bien calibrada, lo cual es vital para las tuberías de evaluación adaptables y confiables. En este trabajo, abogamos por un cambio de la evaluación centrada en la precisión a los sistemas LLM-As-A-Judge impulsados por la confianza y conscientes del riesgo, enfatizando la necesidad de una confianza bien calibrada para una evaluación confiable y adaptativa. Identificamos sistemáticamente el ** fenómeno de exceso de confianza ** en los judgios LLM-AS-AS actuales, donde la confianza prevista exagera significativamente la corrección real, lo que socava la confiabilidad en la implementación práctica. Para cuantificar este fenómeno, introducimos ** TH-SCORE **, una nueva métrica que mide la alineación de la precisión de la confianza. Además, proponemos ** llm-as-a-fuser **, un marco de conjunto que transforma LLM en evaluadores confiables y conscientes del riesgo. Experimentos extensos demuestran que nuestro enfoque mejora sustancialmente la calibración y permite tuberías de evaluación adaptativas e impulsadas por la confianza, logrando una confiabilidad y precisión superiores en comparación con las líneas de base existentes.
Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original