Resumen: Los modelos de lenguaje grande de difusión (DLLM) han surgido como una alternativa prometedora a los modelos autorregresivos, ofreciendo pedidos de generación flexible y un fuerte rendimiento en tareas de razonamiento complejas. Sin embargo, los DLLM sintonizados con instrucciones exhiben una vulnerabilidad crítica que llamamos Texttt {} desbordamiento: a medida que aumenta la longitud de secuencia asignada, las respuestas se vuelven paradójicamente más cortas, colapsando en terminación temprana o degenerando en flujos de texttt {} tokens. Aunque se notó en la práctica, este problema no se ha analizado sistemáticamente. Trace su causa raíz al doble papel de texttt {} como terminación y relleno, que concentra la masa de probabilidad en texttt {} en posiciones posteriores y se propaga hacia atrás para desencadenar la terminación temprana. Para abordar esto, presentamos a Rainbow Rotding, un remedio simple que reemplaza a los marcadores de posición repetidos texttt {} con un ciclo repetitivo de tokens de relleno distintos, distribuyendo masa de probabilidad y rompiendo texttt {} dominio. Los experimentos muestran que el relleno del arco iris mejora sustancialmente la robustez y la calidad de la producción, con tan solo siete tokens de acolchado suficientes para prevenir la terminación temprana. Además, el método se integra de manera eficiente en los modelos existentes ajustados a las instrucciones: el ajuste fino de Lora para una sola época en datos mínimos produce mejoras significativas, lo que hace que esta solución sea muy práctica. El código está disponible públicamente en esta URL HTTPS.
Publicado originalmente en export.arxiv.org el 6 de octubre de 2025. Ver fuente original