Resumen: La estimación de incertidumbre (UE) tiene como objetivo detectar resultados alucinados de modelos de lenguaje grande (LLM) para mejorar su confiabilidad. Sin embargo, las métricas de UE a menudo muestran un rendimiento inestable en todas las configuraciones, lo que limita significativamente su aplicabilidad. En este trabajo, formalizamos este fenómeno como falla del proxy, ya que la mayoría de las métricas de la UE se originan en el comportamiento del modelo, en lugar de basarse explícitamente en la corrección fáctica de los resultados del LLM. Con esto, demostramos que las métricas de la UE se vuelven no discriminatorias precisamente en regímenes de poca información. Para aliviar esto, proponemos Truth AnChoring (TAC), un método de calibración post-hoc para remediar las métricas de UE, al asignar las puntuaciones brutas a puntuaciones alineadas con la verdad. Incluso con una supervisión ruidosa y de pocos disparos, nuestro TAC puede respaldar el aprendizaje de estimaciones de incertidumbre bien calibradas y presenta un protocolo de calibración práctico. Nuestros hallazgos resaltan las limitaciones de tratar las métricas heurísticas de UE como indicadores directos de la incertidumbre de la verdad y posicionan nuestro TAC como un paso necesario hacia una estimación de la incertidumbre más confiable para los LLM. El repositorio de código está disponible en esta URL https.
Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original
