Resumen:Nuestro objetivo es consolidar el panorama de las estrategias de fragmentación multimodal, proporcionando a los investigadores y profesionales una base técnica y un espacio de diseño para desarrollar sistemas de IA multimodal más eficaces y eficientes. Esta encuesta allana el camino para innovaciones en canales de fragmentación robustos que escalan con la complejidad de la modalidad, mejoran la precisión del procesamiento y mejoran la coherencia generativa en aplicaciones del mundo real. Esta encuesta proporciona una taxonomía integral y un análisis técnico de estrategias de fragmentación adaptadas a cada modalidad: texto, imágenes, audio, video y datos intermodales. Examinamos enfoques clásicos y modernos, como ventanas de token de tamaño fijo, división recursiva de texto, fragmentación visual centrada en objetos, segmentación de audio basada en silencio y detección de escenas en videos. Cada enfoque se analiza en términos de su metodología subyacente, herramientas de soporte (por ejemplo, LangChain, Detectron2, PySceneDetect), beneficios y desafíos, particularmente aquellos relacionados con las compensaciones del contexto de granularidad y la alineación multimodal. Además, exploramos estrategias emergentes de fragmentación intermodal que tienen como objetivo preservar la alineación y la coherencia semántica entre tipos de datos dispares [4]. También incluimos conocimientos comparativos, destacamos problemas abiertos como la densidad de información asincrónica y las señales de alineación ruidosas, e identificamos oportunidades para investigaciones futuras en fragmentación adaptativa, basada en el aprendizaje y específica de tareas.
Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original
