¡No pienses dos veces! La extracción excesiva perjudica la calibración de confianza

Resumen: Modelos de idiomas grandes implementados como herramientas de respuesta a preguntas requieren una calibración robusta para evitar exceso de confianza. Evaluamos sistemáticamente cómo las capacidades de razonamiento y el presupuesto afectan la precisión de la evaluación de la confianza, utilizando el conjunto de datos ClimateX (Lacombe et al., 2023) y expandiéndolo a la salud humana y planetaria. Nuestro hallazgo clave desafía el paradigma de “escala de tiempo de prueba”: mientras que el reciente razonamiento LLM alcanza una precisión del 48.7% en la evaluación de la confianza de los expertos, el aumento de los presupuestos de razonamiento perjudica constantemente en lugar de mejorar la calibración. El razonamiento extendido conduce a una exceso de confianza sistemática que empeora con presupuestos de pensamiento más largos, produciendo rendimientos decrecientes y negativos más allá de modestas inversiones computacionales. Por el contrario, la generación acuática de búsqueda supera dramáticamente el razonamiento puro, lo que alcanza la precisión del 89.3% al recuperar la evidencia relevante. Nuestros resultados sugieren que el acceso a la información, en lugar de la profundidad de razonamiento o el presupuesto de inferencia, puede ser el cuello de botella crítico para mejorar la calibración de la confianza de las tareas intensivas en conocimiento.

Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Los LLM son capaces de un comportamiento desalineado bajo prohibición y vigilancia explícitas

Grupo de contexto: agrupación de gráficos específicos de consulta para predicción de enlaces inductivos genéricos en gráficos de conocimiento

OSC: Orquestación cognitiva a través de la alineación de conocimiento dinámico en la colaboración de Multi-Agent LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido