Yo, yo mismo y $pi$: evaluación y explicación de la introspección del LLM

Resumen:Un sello distintivo de la inteligencia humana es la introspección: la capacidad de evaluar y razonar sobre los propios procesos cognitivos. La introspección ha surgido como una capacidad prometedora pero controvertida en los modelos de lenguajes grandes (LLM). Sin embargo, las evaluaciones actuales a menudo no logran distinguir la metacognición genuina de la mera aplicación del conocimiento general del mundo o la autosimulación basada en textos. En este trabajo, proponemos una taxonomía de principios que formaliza la introspección como el cálculo latente de operadores específicos sobre la política y los parámetros de un modelo. Para aislar los componentes de la introspección generalizada, presentamos Introspect-Bench, un conjunto de evaluación multifacético diseñado para pruebas de capacidad rigurosas. Nuestros resultados muestran que los modelos de frontera exhiben un acceso privilegiado a sus propias políticas, superando a los modelos pares en la predicción de su propio comportamiento. Además, proporcionamos evidencia causal y mecanicista que explica cómo los LLM aprenden a introspección sin entrenamiento explícito y cómo el mecanismo de introspección emerge a través de la difusión de la atención.

Publicado originalmente en export.arxiv.org el 23 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Verificación asimétrica manejable para modelos de lenguaje grande a través de replicabilidad determinista

Desbloquear el máximo potencial de IA requiere excelencia operativa

Las sustancias que alteran la mente (todavía) se quedan cortas en los ensayos clínicos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido