Punto de estabilización del razonamiento: una señal de tiempo de entrenamiento para evidencia estable y confianza en atajos

Resumen:Afinar los modelos de lenguaje previamente entrenados puede mejorar el desempeño de la tarea y al mismo tiempo alterar sutilmente la evidencia en la que se basa un modelo. Proponemos una vista de interpretabilidad en el tiempo de entrenamiento que rastrea las atribuciones a nivel de token a lo largo de épocas de ajuste. Definimos la deriva explicativa como el cambio de una época a otra en las atribuciones de tokens normalizadas en un conjunto de sondas fijas, e introducimos el Punto de Estabilización del Razonamiento (RSP), la primera época después de la cual la deriva permanece consistentemente baja. El RSP se calcula a partir de la dinámica de deriva dentro de la ejecución y no requiere ajuste de los datos fuera de distribución. En múltiples clasificadores de transformadores livianos y tareas de clasificación de referencia, la deriva generalmente colapsa en un régimen bajo y estable al comienzo del entrenamiento, mientras que la precisión de la validación continúa cambiando solo marginalmente. En una configuración de atajo controlada con tokens de activación correlacionados con etiquetas, la dinámica de atribución expone una dependencia cada vez mayor del atajo incluso cuando la precisión de la validación sigue siendo competitiva. En general, la deriva de la explicación proporciona un diagnóstico simple y de bajo costo para monitorear cómo evoluciona la evidencia de decisiones durante el ajuste y para seleccionar puntos de control en un régimen de evidencia estable.

Publicado originalmente en export.arxiv.org el 20 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Comprensión del mapa cartográfico de modelo multimodal grande para la georreferencia de la localidad textual

Autocalificación multidimensional de los servicios de procesamiento: una comparación de métodos basados ​​en agentes

MIR: Metodología de recuperación de inspiración para problemas de investigación científica

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Autocalificación multidimensional de los servicios de procesamiento: una comparación de métodos basados en agentes