Resumen: Los avances recientes en el ajuste fino de los parámetros multimodales (PEFT) han mejorado significativamente el rendimiento en las tareas aguas abajo, como la recuperación de pocos disparos. Sin embargo, la mayoría de los enfoques existentes se centran en las ganancias específicas de la tarea al tiempo que descuida la estructura del espacio de incrustación multimodal. Como resultado, las representaciones específicas de la modalidad a menudo permanecen aisladas, lo que limita la generalización intermodal. En este trabajo, presentamos un alineador de inmediato (spaner) compartido, un marco PEFT agnóstico de modalidad diseñado para incrustar entradas de diversas modalidades en un espacio semántico unificado. En esencia, Spaner emplea un mecanismo rápido compartido que actúa como un ancla conceptual, lo que permite que las instancias semánticamente relacionadas convergen espacialmente independientemente de la modalidad. Este diseño rápido compartido es inherentemente extensible, lo que respalda la integración perfecta de modalidades adicionales, como el audio, sin alterar la arquitectura central. A través de experimentos completos en los puntos de referencia en idioma de visión y audiovisuales, Spaner demuestra un rendimiento competitivo de recuperación de pocos disparos al tiempo que preserva una alta coherencia semántica en el espacio de incrustación aprendida. Nuestros resultados resaltan la importancia de alinear las estructuras de incrustación, en lugar de simplemente ajustar los pesos del adaptador, para el aprendizaje multimodal escalable.
Publicado Originalme en export.arxiv.org El 19 de agosto de 2025.
Ver Fuente Original
