En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Yo, yo mismo y $pi$: evaluación y explicación de la introspección del LLM

Yo, yo mismo y $pi$: evaluación y explicación de la introspección del LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Un sello distintivo de la inteligencia humana es la introspección: la capacidad de evaluar y razonar sobre los propios procesos cognitivos. La introspección ha surgido como una capacidad prometedora pero controvertida en los modelos de lenguajes grandes (LLM). Sin embargo, las evaluaciones actuales a menudo no logran distinguir la metacognición genuina de la mera aplicación del conocimiento general del mundo o la autosimulación basada en textos. En este trabajo, proponemos una taxonomía de principios que formaliza la introspección como el cálculo latente de operadores específicos sobre la política y los parámetros de un modelo. Para aislar los componentes de la introspección generalizada, presentamos Introspect-Bench, un conjunto de evaluación multifacético diseñado para pruebas de capacidad rigurosas. Nuestros resultados muestran que los modelos de frontera exhiben un acceso privilegiado a sus propias políticas, superando a los modelos pares en la predicción de su propio comportamiento. Además, proporcionamos evidencia causal y mecanicista que explica cómo los LLM aprenden a introspección sin entrenamiento explícito y cómo el mecanismo de introspección emerge a través de la difusión de la atención.

Publicado originalmente en export.arxiv.org el 23 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web