Resumen: Los modelos de lenguaje grande (LLM) se aplican cada vez más a datos clínicos estructurados, pero aún no se ha explorado si pueden reconocer los límites de su propio conocimiento en tales tareas. Estudiamos esta pregunta a través de la lente de la divergencia de atribución entre modelos con el objetivo de reducir la incertidumbre epistémica para tareas estructuradas, comparando Qwen 2.5 7B y XGBoost en una tarea de predicción mediante análisis de divergencia de atribución. Presentamos cuatro hallazgos. En primer lugar, la confianza verbalizada de LLM es epistémicamente vacía, genera un resultado casi constante (0,856-0,937) independientemente de si la precisión es del 49% o del 75,3%, siguiendo el formato de la indicación en lugar de la calidad de la predicción. En segundo lugar, el LLM muestra un efecto de dificultad inverso: la precisión cae al 64,8 % cuando XGBoost tiene un 99 % de exactitud, pero iguala a XGBoost (73,8 % frente a 73,1 %) cuando es moderadamente incierto. En tercer lugar, los ejemplos de pocas tomas y la evidencia de características derivadas de SHAP son intervenciones ortogonales y superaditivas: reducen la puntuación de desacuerdo de atribución (ADS) de 1,54 a 0,38 y mejoran la precisión del 49% al 75,3% sin entrenamiento. En cuarto lugar, un calibrador de modelos cruzados que determinó la confiabilidad del LLM utilizando señales de divergencia de atribución reduce el error de calibración esperado de 0,254 a 0,080, reemplazando la confianza verbalizada no informativa con estimaciones de confiabilidad específicas del paciente, sin acceder a los componentes internos del modelo ni requerir inferencias repetidas. Enmarcamos estos hallazgos como un problema de inicio en frío para los LLM sobre datos estructurados y delineamos un camino hacia una genuina autoconciencia epistémica.
Publicado originalmente en export.arxiv.org el 18 de junio de 2026.
Ver fuente original
