Resumen: Los avances recientes en el aprendizaje multimodal se han basado en gran medida en objetivos contrastantes por pares para alinear diferentes modalidades, como texto, video y audio, en un espacio de incrustación compartido. Si bien es efectivo en las configuraciones bi-modales, estos enfoques luchan para generalizarse a través de múltiples modalidades y, a menudo, carecen de estructura semántica en espacios de alta dimensión. En este artículo, proponemos Mover, un marco novedoso que combina una alineación suave óptima basada en el transporte con la regularización geométrica basada en el volumen para construir representaciones multimodales semánticamente alineadas y estructuradas. Al integrar un mecanismo de coincidencia guiado por el transporte con un objetivo de minimización de volumen geométrico (dados), Mover fomenta una alineación consistente en todas las modalidades de manera agnóstica de modalidad. Los experimentos sobre las tareas de recuperación de texto-video-audio demuestran que Mover supera significativamente a los métodos de vanguardia previos en entornos de disparo cero y en forma de Finetuned. El análisis adicional muestra una generalización mejorada a combinaciones de modalidad invisibles y una consistencia estructural más fuerte en el espacio de incrustación aprendida.
Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original