En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->OneFlow: generación concurrente de modales mixtos e intercalados con flujos de edición

OneFlow: generación concurrente de modales mixtos e intercalados con flujos de edición

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Presentamos OneFlow, el primer modelo multimodal no autorregresivo que permite la generación de modos mixtos concurrentes y de longitud variable. A diferencia de los modelos autorregresivos que imponen un orden causal rígido entre la generación de texto e imágenes, OneFlow combina un flujo de edición basado en inserción para tokens de texto discretos con coincidencia de flujo para imágenes latentes. OneFlow permite la síntesis simultánea de texto e imagen con muestreo jerárquico que prioriza el contenido sobre la gramática. A través de experimentos controlados en tamaños de modelos desde 1B hasta 8B, demostramos que OneFlow supera las líneas de base autorregresivas tanto en tareas de generación como de comprensión mientras utiliza hasta un 50 % menos de FLOP de entrenamiento. OneFlow supera los enfoques autorregresivos y basados ​​en difusión al tiempo que desbloquea nuevas capacidades para generación concurrente, refinamiento iterativo y generación similar al razonamiento natural.

Publicado originalmente en export.arxiv.org el 6 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web