Rainbow Padding: mitigación de la terminación anticipada en LLM de difusión adaptada a la instrucción

Resumen: Los modelos de lenguaje grande de difusión (DLLM) han surgido como una alternativa prometedora a los modelos autorregresivos, ofreciendo pedidos de generación flexible y un fuerte rendimiento en tareas de razonamiento complejas. Sin embargo, los DLLM sintonizados con instrucciones exhiben una vulnerabilidad crítica que llamamos Texttt {} desbordamiento: a medida que aumenta la longitud de secuencia asignada, las respuestas se vuelven paradójicamente más cortas, colapsando en terminación temprana o degenerando en flujos de texttt {} tokens. Aunque se notó en la práctica, este problema no se ha analizado sistemáticamente. Trace su causa raíz al doble papel de texttt {} como terminación y relleno, que concentra la masa de probabilidad en texttt {} en posiciones posteriores y se propaga hacia atrás para desencadenar la terminación temprana. Para abordar esto, presentamos a Rainbow Rotding, un remedio simple que reemplaza a los marcadores de posición repetidos texttt {} con un ciclo repetitivo de tokens de relleno distintos, distribuyendo masa de probabilidad y rompiendo texttt {} dominio. Los experimentos muestran que el relleno del arco iris mejora sustancialmente la robustez y la calidad de la producción, con tan solo siete tokens de acolchado suficientes para prevenir la terminación temprana. Además, el método se integra de manera eficiente en los modelos existentes ajustados a las instrucciones: el ajuste fino de Lora para una sola época en datos mínimos produce mejoras significativas, lo que hace que esta solución sea muy práctica. El código está disponible públicamente en esta URL HTTPS.

Publicado originalmente en export.arxiv.org el 6 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

RIPRAG: Hackear un sistema de respuesta a preguntas de generación aumentada y recuperación de caja negra con aprendizaje por refuerzo

REDACTOR: un marco con alimentación de LLM para la desidentificación de datos clínicos automáticos

Por qué el pronóstico de construcción todavía ocurre en hojas de cálculo y qué hacer al respecto

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido