Resumen:Un desafío central en la inferencia de modelos de lenguaje grande es el equilibrio entre la velocidad de generación y la calidad de la producción. Los modelos autorregresivos producen texto de alta calidad pero generan tokens de forma secuencial. Los modelos de difusión pueden generar tokens en paralelo, pero a menudo necesitan muchas iteraciones para igualar la misma calidad. Proponemos la difusión planificada, un método híbrido que combina las fortalezas de ambos paradigmas. La difusión planificada funciona en dos etapas: primero, el modelo crea un plan autorregresivo corto que divide la producción en tramos más pequeños e independientes. En segundo lugar, el modelo genera estos tramos simultáneamente mediante difusión. Este enfoque amplía la frontera de Pareto entre velocidad y calidad y proporciona un camino práctico hacia una generación de texto más rápida y de alta calidad. En AlpacaEval, un conjunto de 805 mensajes de seguimiento de instrucciones, la difusión planificada logra un equilibrio óptimo de Pareto entre calidad y latencia, logrando una aceleración de 1,27x a 1,81x respecto a la generación autorregresiva con una caída de sólo entre el 0,87% y el 5,4% en la tasa de ganancias, respectivamente. Nuestro análisis de sensibilidad muestra que el mecanismo de planificación de la difusión planificada es mínimo y confiable, y existen controles de tiempo de ejecución simples para proporcionar un control flexible del equilibrio entre calidad y latencia.
Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original
