En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Difusión planificada

Difusión planificada

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Un desafío central en la inferencia de modelos de lenguaje grande es el equilibrio entre la velocidad de generación y la calidad de la producción. Los modelos autorregresivos producen texto de alta calidad pero generan tokens de forma secuencial. Los modelos de difusión pueden generar tokens en paralelo, pero a menudo necesitan muchas iteraciones para igualar la misma calidad. Proponemos la difusión planificada, un método híbrido que combina las fortalezas de ambos paradigmas. La difusión planificada funciona en dos etapas: primero, el modelo crea un plan autorregresivo corto que divide la producción en tramos más pequeños e independientes. En segundo lugar, el modelo genera estos tramos simultáneamente mediante difusión. Este enfoque amplía la frontera de Pareto entre velocidad y calidad y proporciona un camino práctico hacia una generación de texto más rápida y de alta calidad. En AlpacaEval, un conjunto de 805 mensajes de seguimiento de instrucciones, la difusión planificada logra un equilibrio óptimo de Pareto entre calidad y latencia, logrando una aceleración de 1,27x a 1,81x respecto a la generación autorregresiva con una caída de sólo entre el 0,87% y el 5,4% en la tasa de ganancias, respectivamente. Nuestro análisis de sensibilidad muestra que el mecanismo de planificación de la difusión planificada es mínimo y confiable, y existen controles de tiempo de ejecución simples para proporcionar un control flexible del equilibrio entre calidad y latencia.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web