Mover: transporte óptimo multimodal con regularización de incrustación basada en volumen

Resumen: Los avances recientes en el aprendizaje multimodal se han basado en gran medida en objetivos contrastantes por pares para alinear diferentes modalidades, como texto, video y audio, en un espacio de incrustación compartido. Si bien es efectivo en las configuraciones bi-modales, estos enfoques luchan para generalizarse a través de múltiples modalidades y, a menudo, carecen de estructura semántica en espacios de alta dimensión. En este artículo, proponemos Mover, un marco novedoso que combina una alineación suave óptima basada en el transporte con la regularización geométrica basada en el volumen para construir representaciones multimodales semánticamente alineadas y estructuradas. Al integrar un mecanismo de coincidencia guiado por el transporte con un objetivo de minimización de volumen geométrico (dados), Mover fomenta una alineación consistente en todas las modalidades de manera agnóstica de modalidad. Los experimentos sobre las tareas de recuperación de texto-video-audio demuestran que Mover supera significativamente a los métodos de vanguardia previos en entornos de disparo cero y en forma de Finetuned. El análisis adicional muestra una generalización mejorada a combinaciones de modalidad invisibles y una consistencia estructural más fuerte en el espacio de incrustación aprendida.

Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Torneo de indicaciones: Evolucionando las instrucciones de LLM a través de debates estructurados y calificaciones ELO

Clonación de un agente de IA de voz conversacional de Call , grabando conjuntos de datos para telesales

2025 Informe de talento tecnológico de Japón ahora en vivo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido