En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Punto de estabilización del razonamiento: una señal de tiempo de entrenamiento para evidencia estable y confianza en atajos

Punto de estabilización del razonamiento: una señal de tiempo de entrenamiento para evidencia estable y confianza en atajos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Afinar los modelos de lenguaje previamente entrenados puede mejorar el desempeño de la tarea y al mismo tiempo alterar sutilmente la evidencia en la que se basa un modelo. Proponemos una vista de interpretabilidad en el tiempo de entrenamiento que rastrea las atribuciones a nivel de token a lo largo de épocas de ajuste. Definimos la deriva explicativa como el cambio de una época a otra en las atribuciones de tokens normalizadas en un conjunto de sondas fijas, e introducimos el Punto de Estabilización del Razonamiento (RSP), la primera época después de la cual la deriva permanece consistentemente baja. El RSP se calcula a partir de la dinámica de deriva dentro de la ejecución y no requiere ajuste de los datos fuera de distribución. En múltiples clasificadores de transformadores livianos y tareas de clasificación de referencia, la deriva generalmente colapsa en un régimen bajo y estable al comienzo del entrenamiento, mientras que la precisión de la validación continúa cambiando solo marginalmente. En una configuración de atajo controlada con tokens de activación correlacionados con etiquetas, la dinámica de atribución expone una dependencia cada vez mayor del atajo incluso cuando la precisión de la validación sigue siendo competitiva. En general, la deriva de la explicación proporciona un diagnóstico simple y de bajo costo para monitorear cómo evoluciona la evidencia de decisiones durante el ajuste y para seleccionar puntos de control en un régimen de evidencia estable.

Publicado originalmente en export.arxiv.org el 20 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web