Potenciales de representación de modelos fundamentales para la alineación multimodal: una encuesta

Resumen: Los modelos básicos aprenden representaciones altamente transferibles mediante un entrenamiento previo a gran escala con datos diversos. Un creciente conjunto de investigaciones indica que estas representaciones exhiben un notable grado de similitud entre arquitecturas y modalidades. En esta encuesta, investigamos los potenciales de representación de los modelos básicos, definidos como la capacidad latente de sus representaciones aprendidas para capturar información específica de la tarea dentro de una única modalidad y al mismo tiempo proporcionar una base transferible para la alineación y unificación entre modalidades. Comenzamos revisando los modelos de base representativos y las métricas clave que hacen que la alineación sea mensurable. Luego sintetizamos evidencia empírica de los potenciales de representación a partir de estudios en visión, lenguaje, habla, multimodalidad y neurociencia. La evidencia sugiere que los modelos fundamentales a menudo exhiben regularidades estructurales y consistencias semánticas en sus espacios de representación, lo que los posiciona como fuertes candidatos para la transferencia y alineación intermodal. Analizamos más a fondo los factores clave que fomentan los potenciales de representación, discutimos preguntas abiertas y destacamos desafíos potenciales.

Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Generación de diálogo asistente proactivo desde la transmisión de videos egocéntricos

La buena tecnología debería cambiar el mundo

Sobre admisibilidad fuerte y débil en la argumentación no basada en la suposición

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido