 Resumen: Los creadores luchan por editar videos de forma larga y rica en narrativa no por la complejidad de la interfaz de usuario, sino debido a las demandas cognitivas de búsqueda, guión gráfico y horas de secuencia de imágenes. Los métodos basados en la transcripción o la incrustación existentes quedan cortos para los flujos de trabajo creativos, ya que los modelos luchan para rastrear personajes, inferir motivaciones y conectar eventos dispersos. Presentamos un sistema de edición modular impulsado por aviso que ayuda a los creadores a reestructurar contenido de varias horas a través de indicaciones de forma libre en lugar de plazos. En su núcleo hay una tubería de indexación semántica que construye una narrativa global a través de la segmentación temporal, la compresión de la memoria guiada y la fusión de granularidad cruzada, produciendo rastros interpretables de trama, diálogo, emoción y contexto. Los usuarios reciben ediciones cinematográficas mientras opcionalmente refinan las salidas intermedias transparentes. Evaluado en más de 400 videos con calificaciones de expertos, QA y estudios de preferencias, nuestro sistema escala la edición impulsada por el aviso, preserva la coherencia narrativa y equilibra la automatización con el control del creador.
Resumen: Los creadores luchan por editar videos de forma larga y rica en narrativa no por la complejidad de la interfaz de usuario, sino debido a las demandas cognitivas de búsqueda, guión gráfico y horas de secuencia de imágenes. Los métodos basados en la transcripción o la incrustación existentes quedan cortos para los flujos de trabajo creativos, ya que los modelos luchan para rastrear personajes, inferir motivaciones y conectar eventos dispersos. Presentamos un sistema de edición modular impulsado por aviso que ayuda a los creadores a reestructurar contenido de varias horas a través de indicaciones de forma libre en lugar de plazos. En su núcleo hay una tubería de indexación semántica que construye una narrativa global a través de la segmentación temporal, la compresión de la memoria guiada y la fusión de granularidad cruzada, produciendo rastros interpretables de trama, diálogo, emoción y contexto. Los usuarios reciben ediciones cinematográficas mientras opcionalmente refinan las salidas intermedias transparentes. Evaluado en más de 400 videos con calificaciones de expertos, QA y estudios de preferencias, nuestro sistema escala la edición impulsada por el aviso, preserva la coherencia narrativa y equilibra la automatización con el control del creador.
Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original

 
 
			 
							 
							 
							