Hacia una estimación de la incertidumbre confiable y alineada con la verdad en modelos de lenguaje grandes

Resumen: La estimación de incertidumbre (UE) tiene como objetivo detectar resultados alucinados de modelos de lenguaje grande (LLM) para mejorar su confiabilidad. Sin embargo, las métricas de UE a menudo muestran un rendimiento inestable en todas las configuraciones, lo que limita significativamente su aplicabilidad. En este trabajo, formalizamos este fenómeno como falla del proxy, ya que la mayoría de las métricas de la UE se originan en el comportamiento del modelo, en lugar de basarse explícitamente en la corrección fáctica de los resultados del LLM. Con esto, demostramos que las métricas de la UE se vuelven no discriminatorias precisamente en regímenes de poca información. Para aliviar esto, proponemos Truth AnChoring (TAC), un método de calibración post-hoc para remediar las métricas de UE, al asignar las puntuaciones brutas a puntuaciones alineadas con la verdad. Incluso con una supervisión ruidosa y de pocos disparos, nuestro TAC puede respaldar el aprendizaje de estimaciones de incertidumbre bien calibradas y presenta un protocolo de calibración práctico. Nuestros hallazgos resaltan las limitaciones de tratar las métricas heurísticas de UE como indicadores directos de la incertidumbre de la verdad y posicionan nuestro TAC como un paso necesario hacia una estimación de la incertidumbre más confiable para los LLM. El repositorio de código está disponible en esta URL https.

Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

No conmutatividad operativa en juicios metacognitivos secuenciales

La búsqueda para defenderse contra la tecnología en violencia de pareja íntima

Las plantas desaladoras de Oriente Medio son cada vez más vulnerables

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido