Resumen: Los modelos de idiomas grandes (LLM) se usan ampliamente como jueces automatizados, donde el valor práctico depende de la precisión y los juicios confiables y conscientes del riesgo. Los enfoques existentes se centran predominantemente en la precisión, con vistas a la necesidad de una confianza bien calibrada, lo cual es vital para las tuberías de evaluación adaptables y confiables. En este trabajo, abogamos por un cambio de la evaluación centrada en la precisión a los sistemas LLM-As-A-Judge impulsados por la confianza y conscientes del riesgo, enfatizando la necesidad de una confianza bien calibrada para una evaluación confiable y adaptativa. Identificamos sistemáticamente el ** fenómeno de exceso de confianza ** en los judgios LLM-AS-AS actuales, donde la confianza prevista exagera significativamente la corrección real, lo que socava la confiabilidad en la implementación práctica. Para cuantificar este fenómeno, introducimos ** TH-SCORE **, una nueva métrica que mide la alineación de la precisión de la confianza. Además, proponemos ** llm-as-a-fuser **, un marco de conjunto que transforma LLM en evaluadores confiables y conscientes del riesgo. Experimentos extensos demuestran que nuestro enfoque mejora sustancialmente la calibración y permite tuberías de evaluación adaptativas e impulsadas por la confianza, logrando una confiabilidad y precisión superiores en comparación con las líneas de base existentes.

Publicado Originalme en export.arxiv.org El 10 de agosto de 2025.
Ver Fuente Original

El exceso de confianza en LLM-As-A-Judge: diagnóstico y solución impulsada por la confianza

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Lecciones aprendidas: un marco de múltiples agentes para el código LLMS para aprender y mejorar

Optimización de mezcla de datos para ajuste fino supervisado de modelos de idiomas grandes

Cancillería: Evaluación de capacidades de razonamiento de gobierno corporativo en modelos de idiomas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido