Resumen: La medida en que los modelos de lenguaje de decodificador (LMS) participan en la planificación, es decir, organizar cálculos intermedios para respaldar la generación coherente de largo alcance, sigue siendo una pregunta abierta e importante, con implicaciones para la interpretabilidad, la fiabilidad y el diseño del modelo de principios. La planificación implica estructurar cálculos en horizontes largos, considerando múltiples continuaciones posibles y reutilizando selectivamente información pasada, pero cuán efectivamente los LM basados en transformadores se dan cuenta de estas capacidades aún no está claro. Abordamos estas preguntas analizando los estados ocultos en el núcleo de los cálculos de transformadores, que capturan resultados intermedios y actúan como portadores de información. Dado que estas representaciones ocultas a menudo son redundantes y gravadas con detalles de grano fino, desarrollamos una tubería basada en autoencoders variacionales de vectores que los comprime en códigos de resumen compactos. Estos códigos permiten medir información mutua, permitiendo un análisis sistemático de la estructura computacional subyacente al comportamiento del modelo. Usando este marco, estudiamos la planificación en LMS a través de la gramática sintética, las tareas de búsqueda de rutas y los conjuntos de datos del lenguaje natural, centrándonos en tres aspectos clave: (i) el horizonte de planificación de los cálculos previos a la salida, (ii) la medida en que el modelo considera continuas válidas alternativas y (iii) la relación de las nuevas predicciones en las computaciones anteriores. Al responder estas preguntas, avanzamos la comprensión de cómo se realiza la planificación en LMS y contribuye con una tubería de propósito general para sondear la dinámica interna de LMS y los sistemas de aprendizaje profundo. Nuestros resultados revelan que el horizonte de planificación efectivo depende de la tarea, que los modelos preservan implícitamente información sobre continuaciones correctas no utilizadas, y que las predicciones se basan más en los cálculos recientes, aunque los bloques anteriores siguen siendo informativos.
Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original