Hacia una teoría de generalización en la investigación de interpretabilidad mecanicista de LLM

Resumen: La investigación en modelos de lenguaje grande (LLMS) se centra cada vez más en identificar explicaciones mecanicistas para sus comportamientos, sin embargo, el campo carece de principios claros para determinar cuándo (y cómo) los hallazgos de una instancia de modelo se generalizan a otra. Este documento aborda un desafío epistemológico fundamental: dado un reclamo mecanicista sobre un modelo en particular, ¿qué justifica la extrapolar este hallazgo a otros LLM, y a lo largo de qué dimensiones podrían tener tales generalizaciones? Propongo cinco ejes potenciales de correspondencia a lo largo de los cuales las afirmaciones mecanicistas podrían generalizar, incluyendo: funcional (ya sea que satisfagan los mismos criterios funcionales), el desarrollo (si se desarrollan en puntos similares durante el pre-proyenamiento), posicional (ya sea que ocupan posiciones absolutas o relativas similares) (relacionales (si interactúan con otros componentes modelo) y la configuración de la configuración (si corresponden a regiones particulares o estructuras de peso en peso). Para validar empíricamente este marco, analizo “cabezales de atención de 1 retroceso” (componentes que atienden tokens anteriores) en el pretratrenamiento en semillas aleatorias de los modelos Pythia (14m, 70m, 160m, 410m). Los resultados revelan una consistencia sorprendente en las trayectorias de desarrollo de la atención de 1 retroceso entre los modelos, mientras que la consistencia posicional es más limitada. Además, las semillas de modelos más grandes muestran sistemáticamente inicios anteriores, pendientes más pronunciadas y picos más altos de atención. También abordo posibles objeciones a los argumentos y propuestas descritas aquí. Finalmente, concluyo argumentando que el progreso en la generalización de la investigación de interpretabilidad mecanicista consistirá en mapear las propiedades de diseño constitutivas de LLM a sus comportamientos y mecanismos emergentes.

Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Warex: Evaluación de confiabilidad del agente web en puntos de referencia existentes

Promover un razonamiento eficiente con recompensa paso a paso verificable

Dalton Oliveira: El siguiente nivel de IoT: IoS – Internet of Smell

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido