Resumen: La alineación de entidades multimodales tiene como objetivo identificar entidades equivalentes entre dos gráficos de conocimiento multimodales mediante la integración de datos multimodales, como imágenes y texto, para enriquecer las representaciones semánticas de las entidades. Sin embargo, los métodos existentes pueden pasar por alto la información contextual estructural dentro de cada modalidad, haciéndolos vulnerables a la interferencia de características superficiales. Para abordar estos desafíos, proponemos MyGram, un transformador de gráficos consciente de la modalidad con distribución global para la alineación de entidades multimodales. Específicamente, desarrollamos un módulo de aprendizaje por difusión de modalidades para capturar información contextual estructural profunda dentro de las modalidades y permitir una fusión multimodal detallada. Además, introducimos una pérdida de gramo que actúa como una restricción de regularización al minimizar el volumen de un paralelotopo de 4 dimensiones formado por características multimodales, logrando así una consistencia de distribución global entre modalidades. Realizamos experimentos en cinco conjuntos de datos públicos. Los resultados muestran que MyGram supera a los modelos de referencia, logrando una mejora máxima del 4,8 % en Hits@1 en FBDB15K, del 9,9 % en FBYG15K y del 4,3 % en DBP15K.
Publicado originalmente en export.arxiv.org el 20 de enero de 2026.
Ver fuente original
