Resumen: La optimización del Modelo de difusión discreta (DDM) con recompensas sigue siendo un desafío: el paradigma no autorgresivo hace que la importancia muestree un complejo intratable y desplegable, métodos de aprendizaje de refuerzo desconcertantes, como la optimización de políticas relativas grupales (GRPO). En este estudio, presentamos MaskGRPO, el primer enfoque viable para permitir el aprendizaje de refuerzo multimodal escalable en difusión discreta con muestreo de importancia efectiva y adaptaciones específicas de modalidad. Con este fin, primero aclaramos la base teórica para DDMS, que facilita la construcción de un estimador de importancia que captura una valiosa fluctuación de token para las actualizaciones de gradiente. Luego adaptamos delicadamente el método de despliegue para secuencias visuales, que produce diversas terminaciones y gradientes de optimización confiables. Tras el razonamiento matemático, la codificación y los puntos de referencia de generación visual, Maskgrpo trae actualizaciones más estables y eficientes, lo que lleva a un rendimiento de razonamiento más fuerte y una mejor calidad de generación. Este estudio establece MaskGRPO como un enfoque sistemático de optimización de políticas y la primera forma práctica de difusión visual discretizada.

Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original

Consolidación del aprendizaje de refuerzo para modelos de difusión discretos multimodales

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Equilibrios de razonamiento y comportamiento en juegos de Nash LLM: desde la mentalidad hasta las acciones

Tres inspiraciones de la edad de IBM Watson IoT

Hacia una comprensión más profunda de las capacidades de razonamiento en modelos de idiomas grandes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido