Difusión planificada

Resumen:Un desafío central en la inferencia de modelos de lenguaje grande es el equilibrio entre la velocidad de generación y la calidad de la producción. Los modelos autorregresivos producen texto de alta calidad pero generan tokens de forma secuencial. Los modelos de difusión pueden generar tokens en paralelo, pero a menudo necesitan muchas iteraciones para igualar la misma calidad. Proponemos la difusión planificada, un método híbrido que combina las fortalezas de ambos paradigmas. La difusión planificada funciona en dos etapas: primero, el modelo crea un plan autorregresivo corto que divide la producción en tramos más pequeños e independientes. En segundo lugar, el modelo genera estos tramos simultáneamente mediante difusión. Este enfoque amplía la frontera de Pareto entre velocidad y calidad y proporciona un camino práctico hacia una generación de texto más rápida y de alta calidad. En AlpacaEval, un conjunto de 805 mensajes de seguimiento de instrucciones, la difusión planificada logra un equilibrio óptimo de Pareto entre calidad y latencia, logrando una aceleración de 1,27x a 1,81x respecto a la generación autorregresiva con una caída de sólo entre el 0,87% y el 5,4% en la tasa de ganancias, respectivamente. Nuestro análisis de sensibilidad muestra que el mecanismo de planificación de la difusión planificada es mínimo y confiable, y existen controles de tiempo de ejecución simples para proporcionar un control flexible del equilibrio entre calidad y latencia.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El Fondo Conmemorativo del IEEE honra al pionero de Magnet Tech, Swarn Kalsi

Imagen de teledetección Interpretación inteligente con la perspectiva centrada en el lenguaje: principios, métodos y desafíos

Responda nuestro cuestionario: ¿Cuánto sabe sobre la resistencia a los antimicrobianos?

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido