En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¡No pienses dos veces! La extracción excesiva perjudica la calibración de confianza

¡No pienses dos veces! La extracción excesiva perjudica la calibración de confianza

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Modelos de idiomas grandes implementados como herramientas de respuesta a preguntas requieren una calibración robusta para evitar exceso de confianza. Evaluamos sistemáticamente cómo las capacidades de razonamiento y el presupuesto afectan la precisión de la evaluación de la confianza, utilizando el conjunto de datos ClimateX (Lacombe et al., 2023) y expandiéndolo a la salud humana y planetaria. Nuestro hallazgo clave desafía el paradigma de “escala de tiempo de prueba”: mientras que el reciente razonamiento LLM alcanza una precisión del 48.7% en la evaluación de la confianza de los expertos, el aumento de los presupuestos de razonamiento perjudica constantemente en lugar de mejorar la calibración. El razonamiento extendido conduce a una exceso de confianza sistemática que empeora con presupuestos de pensamiento más largos, produciendo rendimientos decrecientes y negativos más allá de modestas inversiones computacionales. Por el contrario, la generación acuática de búsqueda supera dramáticamente el razonamiento puro, lo que alcanza la precisión del 89.3% al recuperar la evidencia relevante. Nuestros resultados sugieren que el acceso a la información, en lugar de la profundidad de razonamiento o el presupuesto de inferencia, puede ser el cuello de botella crítico para mejorar la calibración de la confianza de las tareas intensivas en conocimiento.

Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web