Pensar primero, difundir rápidamente: mejorar el razonamiento del modelo del lenguaje de difusión mediante el condicionamiento del plan autorregresivo

Resumen: Los modelos de lenguaje grande de difusión (dLLM) generan texto mediante eliminación iterativa de ruido, pero constantemente tienen un rendimiento inferior en el razonamiento de varios pasos. Nuestra hipótesis es que esta brecha se debe a un problema de coordinación: los modelos AR crean coherencia token por token, mientras que los modelos de difusión deben coordinar todas las posiciones simultáneamente. Proponemos el acondicionamiento del plan, un método sin entrenamiento que antepone un plan breve (~100 tokens) de lenguaje natural de un modelo AR al mensaje del modelo de difusión. El plan sirve como un andamio congelado: un contexto globalmente visible al que cada posición simbólica puede atender desde el primer paso para eliminar el ruido. En GSM8K, el acondicionamiento del plan mejora LLaDA-8B-Instruct del 75,6% al 87,2% (+11,6 puntos porcentuales), igualando un modelo AR del mismo tamaño (LLaMA 3.1 8B, 87,7%) a pesar de una línea base 6,4pp más débil. En HumanEval, la ganancia es de +12,8 pp (37,2 % a 50,0 %), lo que muestra que los planes se generalizan al código. Los mismos planes mejoran LLaMA en solo +5,7 pp en GSM8K y +1,3 pp en HumanEval: los modelos de difusión se benefician entre 2 y 10 veces más, lo que respalda la hipótesis del problema de coordinación. En 5 semillas aleatorias, la precisión del GSM8K condicionada por el plan tiene una desviación estándar cero, lo que hace que la inferencia de difusión sea muy estable. Las ablaciones revelan que el modelo sigue la estrategia del plan (los planes con estrategias incorrectas causan -16,3 puntos porcentuales), pero es robusto a los valores del plan (números perturbados: -1,1 puntos porcentuales), y que la calidad del planificador tiene un umbral agudo: los planes más pequeños de clase Llama perjudican (-1,6 a -6,8 puntos porcentuales), mientras que los planes fronterizos proporcionan el impulso completo. El análisis de la atención confirma el mecanismo: los tokens del plan reciben un exceso de atención 1,8 veces mayor durante la eliminación temprana de ruido, y disminuyen a uniformidad a medida que los tokens de finalización se solidifican. El acondicionamiento del plan cuesta ~$0,002 por problema y agrega ~2s de latencia.

Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cuando las preferencias humanas cambian: una pérdida sólida dependiente de la instancia para RLHF

Mejora de la regionalización orientada a la demanda con IA agente y datos locales heterogéneos para la planificación de la adaptación

La Descarga: un implante de retina prometedor y cómo el cambio climático afecta a las flores

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido