OneFlow: generación concurrente de modales mixtos e intercalados con flujos de edición

Resumen:Presentamos OneFlow, el primer modelo multimodal no autorregresivo que permite la generación de modos mixtos concurrentes y de longitud variable. A diferencia de los modelos autorregresivos que imponen un orden causal rígido entre la generación de texto e imágenes, OneFlow combina un flujo de edición basado en inserción para tokens de texto discretos con coincidencia de flujo para imágenes latentes. OneFlow permite la síntesis simultánea de texto e imagen con muestreo jerárquico que prioriza el contenido sobre la gramática. A través de experimentos controlados en tamaños de modelos desde 1B hasta 8B, demostramos que OneFlow supera las líneas de base autorregresivas tanto en tareas de generación como de comprensión mientras utiliza hasta un 50 % menos de FLOP de entrenamiento. OneFlow supera los enfoques autorregresivos y basados en difusión al tiempo que desbloquea nuevas capacidades para generación concurrente, refinamiento iterativo y generación similar al razonamiento natural.

Publicado originalmente en export.arxiv.org el 6 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

WebDART: Descomposición dinámica y replanificación para tareas web complejas

Tecnologías y aplicaciones para la identidad descentralizada en la atención médica

Flores del futuro

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido