Resumen:Los modelos de lenguajes grandes generan texto a través de dinámicas internas de alta dimensión, pero la organización temporal de estas dinámicas sigue siendo poco comprendida. La mayoría de los enfoques de interpretabilidad enfatizan representaciones estáticas o intervenciones causales, dejando la estructura temporal en gran medida inexplorada. Basándonos en la neurociencia, donde la integración temporal y la metaestabilidad son marcadores centrales de la organización neuronal, adaptamos estos conceptos a modelos transformadores y discutimos una métrica dinámica compuesta, calculada a partir de series temporales de activación durante la generación autorregresiva. Evaluamos esta métrica en medio GPT-2 en cinco condiciones: razonamiento estructurado, repetición forzada, muestreo ruidoso a alta temperatura, poda de atención e inyección de ruido de peso. El razonamiento estructurado exhibe consistentemente una métrica elevada en relación con los regímenes repetitivos, ruidosos y perturbados, con diferencias estadísticamente significativas confirmadas por ANOVA unidireccional y tamaños de efecto grandes en comparaciones clave. Estos resultados son sólidos para la selección de capas, el submuestreo de canales y las semillas aleatorias. Nuestros hallazgos demuestran que las métricas dinámicas inspiradas en la neurociencia pueden caracterizar de manera confiable las diferencias en la organización computacional entre regímenes funcionales en modelos de lenguaje grandes. Destacamos que la métrica propuesta captura propiedades dinámicas formales y no implica experiencia subjetiva.
Publicado originalmente en export.arxiv.org el 20 de enero de 2026.
Ver fuente original
