Resumen:Presentamos OneFlow, el primer modelo multimodal no autorregresivo que permite la generación de modos mixtos concurrentes y de longitud variable. A diferencia de los modelos autorregresivos que imponen un orden causal rígido entre la generación de texto e imágenes, OneFlow combina un flujo de edición basado en inserción para tokens de texto discretos con coincidencia de flujo para imágenes latentes. OneFlow permite la síntesis simultánea de texto e imagen con muestreo jerárquico que prioriza el contenido sobre la gramática. A través de experimentos controlados en tamaños de modelos desde 1B hasta 8B, demostramos que OneFlow supera las líneas de base autorregresivas tanto en tareas de generación como de comprensión mientras utiliza hasta un 50 % menos de FLOP de entrenamiento. OneFlow supera los enfoques autorregresivos y basados en difusión al tiempo que desbloquea nuevas capacidades para generación concurrente, refinamiento iterativo y generación similar al razonamiento natural.
Publicado originalmente en export.arxiv.org el 6 de octubre de 2025.
Ver fuente original
