Resumen: La optimización del Modelo de difusión discreta (DDM) con recompensas sigue siendo un desafío: el paradigma no autorgresivo hace que la importancia muestree un complejo intratable y desplegable, métodos de aprendizaje de refuerzo desconcertantes, como la optimización de políticas relativas grupales (GRPO). En este estudio, presentamos MaskGRPO, el primer enfoque viable para permitir el aprendizaje de refuerzo multimodal escalable en difusión discreta con muestreo de importancia efectiva y adaptaciones específicas de modalidad. Con este fin, primero aclaramos la base teórica para DDMS, que facilita la construcción de un estimador de importancia que captura una valiosa fluctuación de token para las actualizaciones de gradiente. Luego adaptamos delicadamente el método de despliegue para secuencias visuales, que produce diversas terminaciones y gradientes de optimización confiables. Tras el razonamiento matemático, la codificación y los puntos de referencia de generación visual, Maskgrpo trae actualizaciones más estables y eficientes, lo que lleva a un rendimiento de razonamiento más fuerte y una mejor calidad de generación. Este estudio establece MaskGRPO como un enfoque sistemático de optimización de políticas y la primera forma práctica de difusión visual discretizada.
Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original
