En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Consolidación del aprendizaje de refuerzo para modelos de difusión discretos multimodales

Consolidación del aprendizaje de refuerzo para modelos de difusión discretos multimodales

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La optimización del Modelo de difusión discreta (DDM) con recompensas sigue siendo un desafío: el paradigma no autorgresivo hace que la importancia muestree un complejo intratable y desplegable, métodos de aprendizaje de refuerzo desconcertantes, como la optimización de políticas relativas grupales (GRPO). En este estudio, presentamos MaskGRPO, el primer enfoque viable para permitir el aprendizaje de refuerzo multimodal escalable en difusión discreta con muestreo de importancia efectiva y adaptaciones específicas de modalidad. Con este fin, primero aclaramos la base teórica para DDMS, que facilita la construcción de un estimador de importancia que captura una valiosa fluctuación de token para las actualizaciones de gradiente. Luego adaptamos delicadamente el método de despliegue para secuencias visuales, que produce diversas terminaciones y gradientes de optimización confiables. Tras el razonamiento matemático, la codificación y los puntos de referencia de generación visual, Maskgrpo trae actualizaciones más estables y eficientes, lo que lleva a un rendimiento de razonamiento más fuerte y una mejor calidad de generación. Este estudio establece MaskGRPO como un enfoque sistemático de optimización de políticas y la primera forma práctica de difusión visual discretizada.

Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web