En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Incertidumbre de respuesta y modelado de la sonda: ¿dos lados de la misma moneda en la interpretabilidad de LLM?

Incertidumbre de respuesta y modelado de la sonda: ¿dos lados de la misma moneda en la interpretabilidad de LLM?

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las técnicas de sondeo han demostrado ser prometidas al revelar cómo LLM codifican conceptos interpretables por humanos, particularmente cuando se aplican a conjuntos de datos curados. Sin embargo, los factores que rigen la idoneidad de un conjunto de datos para una capacitación efectiva en sondas no son bien entendidos. Este estudio plantea la hipótesis de que el rendimiento de la sonda en tales conjuntos de datos refleja las características de las respuestas generadas por la LLM como de su espacio de características internas. A través del análisis cuantitativo del rendimiento de la sonda y la incertidumbre de respuesta de LLM en una serie de tareas, encontramos una fuerte correlación: el rendimiento mejorado de la sonda corresponde consistentemente a una reducción en la incertidumbre de respuesta y viceversa. Posteriormente, profundizamos en esta correlación a través de la lente del análisis de importancia de características. Nuestros hallazgos indican que la alta varianza de respuesta de LLM está asociada con un conjunto más grande de características importantes, que plantea un mayor desafío para los modelos de sonda y a menudo da como resultado un rendimiento disminuido. Además, aprovechando las ideas del análisis de incertidumbre de respuesta, podemos identificar ejemplos concretos donde las representaciones de LLM se alinean con el conocimiento humano en diversos dominios, que ofrecen evidencia adicional de razonamiento interpretable en LLM.

Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web