Resumen: Los algoritmos de aprendizaje de refuerzo (RL) se han utilizado recientemente para alinear los modelos de difusión con objetivos aguas abajo, como la calidad estética y la consistencia de la imagen de texto al ajustarlos para maximizar una sola función de recompensa bajo una regularización fija de KL. Sin embargo, este enfoque es inherentemente restrictivo en la práctica, donde la alineación debe equilibrar múltiples objetivos a menudo conflictivos. Además, las preferencias de los usuarios varían entre las indicaciones, las personas y los contextos de implementación, con diferentes tolerancias para la desviación de un modelo base previamente capacitado. Abordamos el problema de la alineación de preferencias múltiples de inferencia: dado un conjunto de funciones de recompensa básicas y una fuerza de regularización de referencia KL, ¿podemos diseñar un procedimiento de ajuste fino para que, en un momento de inferencia, pueda generar imágenes alineadas con cualquier combinación lineal especificada por el usuario de recompensas y regularización, sin requerir un ajuste fino adicional? Proponemos la mezcla de difusión, un enfoque novedoso para resolver la alineación de la preferencia múltiple de inferencia al combinar procesos de difusión hacia atrás asociados con modelos ajustados, e instancias de este enfoque con dos algoritmos: DB-MPA para alineación múltiple de recompensa y DB-KLA para el control de regularización de KL. Experimentos extensos muestran que los algoritmos de combinación de difusión superan constantemente las líneas de base relevantes y coinciden estrechamente o exceden el rendimiento de los modelos individualmente ajustados, lo que permite una alineación eficiente impulsada por el usuario en tiempo de inferencia. El código está disponible en esta URL HTTPS} {esta url http.
Publicado Originalme en rss.arxiv.org El 26 de mayo de 2025.
Ver Fuente Original