Resumen:Un sello distintivo de la inteligencia humana es la introspección: la capacidad de evaluar y razonar sobre los propios procesos cognitivos. La introspección ha surgido como una capacidad prometedora pero controvertida en los modelos de lenguajes grandes (LLM). Sin embargo, las evaluaciones actuales a menudo no logran distinguir la metacognición genuina de la mera aplicación del conocimiento general del mundo o la autosimulación basada en textos. En este trabajo, proponemos una taxonomía de principios que formaliza la introspección como el cálculo latente de operadores específicos sobre la política y los parámetros de un modelo. Para aislar los componentes de la introspección generalizada, presentamos Introspect-Bench, un conjunto de evaluación multifacético diseñado para pruebas de capacidad rigurosas. Nuestros resultados muestran que los modelos de frontera exhiben un acceso privilegiado a sus propias políticas, superando a los modelos pares en la predicción de su propio comportamiento. Además, proporcionamos evidencia causal y mecanicista que explica cómo los LLM aprenden a introspección sin entrenamiento explícito y cómo el mecanismo de introspección emerge a través de la difusión de la atención.
Publicado originalmente en export.arxiv.org el 23 de marzo de 2026.
Ver fuente original
