Resumen:Garantizar la coherencia de la identidad de los personajes en las distintas indicaciones sigue siendo una limitación fundamental en la generación de texto a imagen basada en difusión. Proponemos CharCom, un marco modular y eficiente en parámetros que logra una ilustración de la historia consistente con los personajes a través de adaptadores LoRA componibles, lo que permite una personalización eficiente por personaje sin volver a entrenar el modelo base. Construido sobre una columna vertebral de difusión congelada, CharCom compone dinámicamente adaptadores por inferencia utilizando un control de avisos. Los experimentos con narrativas de múltiples escenas demuestran que CharCom mejora significativamente la fidelidad de los personajes, la alineación semántica y la coherencia temporal. Sigue siendo robusto en escenas abarrotadas y permite la generación escalable de múltiples personajes con una sobrecarga mínima, lo que lo hace muy adecuado para aplicaciones del mundo real como ilustración y animación de historias.
Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original
