Navegando el comportamiento del usuario hacia una generación multimodal personalizada

Resumen: Los canales AIGC modernos ofrecen imágenes y videos de alta fidelidad, pero presuponen una instrucción de creación bien formada, mientras que los usuarios finales rara vez articulan detalles visuales, lo que deja a los generadores desalineados con la demanda de los usuarios. Estudiamos la generación de contenido personalizado, que convierte el historial de interacción de un usuario en una instrucción ejecutable para la síntesis posterior, e identificamos dos obstáculos: el comportamiento debe codificarse en una forma legible para el razonamiento del lenguaje, y el modelo debe adquirir habilidades de escritura de instrucciones ausentes tanto en los datos de comportamiento como en los de preentrenamiento. Proponemos NaviGen, que representa cada elemento con un identificador dual que combina un código colaborativo y un código textual como sustrato de comportamiento y puente semántico en un flujo de tokens. En esta representación, un proceso de dos etapas SFT+RL primero destila el razonamiento de preferencias y la redacción de instrucciones a partir de la supervisión buscada evolutivamente, luego alinea la generación con la intención del usuario a través de recompensas jerárquicas y autoconsistentes. Los experimentos en dominios de productos, juegos y videos cortos muestran que NaviGen mejora la generación de imágenes y videos personalizados, fortalece la predicción del siguiente elemento y produce instrucciones más específicas, relevantes y visualmente generables. Nuestro código se publica de forma anónima en: esta URL https.

Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mantis: un modelo de base de simulación para el pronóstico de enfermedades

Debo eliminar la evidencia: Agentes de AI encubren explícitamente fraudes y delitos violentos

Delegación general aprendida por clones.

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido