Fluid: integración unificada en latencia de flujo a través de la destilación de tokens para la especialización de expertos en el aprendizaje multimodal

Resumen: La clasificación multimodal requiere una integración sólida de señales visuales y textuales, sin embargo, las estrategias de fusión comunes son frágiles y vulnerables al ruido específico de la modalidad. En este documento, presentamos TextSC {fluid}-integración unificada de flujo-latente a través de la destilación de tokens para la especialización de expertos, una tubería de nivel de token de principios que mejora la robustez y escalabilidad intermodal. TextSC {fluid} contribuye con tres elementos centrales: (1) enfl {Q-Transforms}, tokens de consulta aprendiéndose que destilan y retienen características de nivel de token sobresaliente de las troncos específicas de modalidad; (2) Un esquema de fusión de dos etapas que aplica la consistencia intermodal a través de la alineación contrastante y luego realiza la fusión adaptativa y consciente de tareas a través de un mecanismo de activación y un enft {Q-Bottleneck} que comprime selectivamente información para el razonamiento posterior; y (3) una mezcla de expertos ligera y equilibrada en el tiempo de predicción que permite una especialización eficiente para diversos patrones semánticos. Experimentos extensos demuestran que TextSC {fluid} alcanza la precisión (91 %) en el punto de referencia GLAMI-1M, superando significativamente las líneas de base anteriores y exhibiendo una fuerte resiliencia para etiquetar el ruido, el desequilibrio de clase de cola larga y la heterogeneidad semántica. Los estudios de ablación dirigidos corroboran los beneficios individuales y sinérgicos de los componentes propuestos, posicionando textsc {fluid} como una solución escalable y resistente al ruido para la clasificación de productos multimodales.

Publicado Originalme en export.arxiv.org El 17 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Límites superiores mejorados para cortar el hipercubo

Agentes de cambio: agentes de LLM de autoevolución para la planificación estratégica

Aioti Paper sobre el uso de robots e IA en la agricultura

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido