Resumen: Los canales AIGC modernos ofrecen imágenes y videos de alta fidelidad, pero presuponen una instrucción de creación bien formada, mientras que los usuarios finales rara vez articulan detalles visuales, lo que deja a los generadores desalineados con la demanda de los usuarios. Estudiamos la generación de contenido personalizado, que convierte el historial de interacción de un usuario en una instrucción ejecutable para la síntesis posterior, e identificamos dos obstáculos: el comportamiento debe codificarse en una forma legible para el razonamiento del lenguaje, y el modelo debe adquirir habilidades de escritura de instrucciones ausentes tanto en los datos de comportamiento como en los de preentrenamiento. Proponemos NaviGen, que representa cada elemento con un identificador dual que combina un código colaborativo y un código textual como sustrato de comportamiento y puente semántico en un flujo de tokens. En esta representación, un proceso de dos etapas SFT+RL primero destila el razonamiento de preferencias y la redacción de instrucciones a partir de la supervisión buscada evolutivamente, luego alinea la generación con la intención del usuario a través de recompensas jerárquicas y autoconsistentes. Los experimentos en dominios de productos, juegos y videos cortos muestran que NaviGen mejora la generación de imágenes y videos personalizados, fortalece la predicción del siguiente elemento y produce instrucciones más específicas, relevantes y visualmente generables. Nuestro código se publica de forma anónima en: esta URL https.
Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original
