Resumen: Los modelos de lenguaje grande basados en difusión (dLLM) refinan las generaciones de tokens mediante la eliminación iterativa de ruido, pero las respuestas a menudo se estabilizan antes de que se completen todos los pasos. Proponemos EDIT (Terminación de inferencia de difusión temprana), un criterio de tiempo de inferencia que detiene de forma adaptativa la eliminación de ruido una vez que se detecta suficiente estabilidad de razonamiento en relación con el razonamiento de tiempo de entrenamiento. EDIT monitorea la alineación entre las activaciones de tokens y un mapa de razonamiento derivado de las actualizaciones de LoRA agregadas por AdamW capturadas durante el ajuste fino supervisado (SFT). Durante el entrenamiento, la dinámica de optimización genera metadatos enriquecidos sobre la importancia de los parámetros que en los métodos anteriores normalmente se descartan al lanzar el modelo. Conservamos esta información como una representación compacta de las vías de razonamiento aprendidas. Durante la inferencia, las puntuaciones de alineación se convierten en una distribución sobre los tokens ya desenmascarados en el paso de eliminación de ruido actual, y la convergencia se detecta cuando la divergencia de KL entre pasos consecutivos cae por debajo de un umbral en los tokens desenmascarados (visibles) coincidentes. En todos los puntos de referencia de razonamiento, EDIT reduce los pasos de difusión entre un 11,8 % y un 68,3 % al tiempo que conserva o mejora la precisión en la mayoría de las configuraciones, con aproximadamente un 0,02 % de sobrecarga de almacenamiento (alrededor de 1,5 a 2 MB para todos los módulos QKV en 32 bloques en un modelo de 8 GB). Al utilizar la dinámica de gradiente de entrenamiento, nuestro trabajo abre una nueva dirección de investigación para reducir el tiempo y el costo de inferencia de dLLM.
Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original
