En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Fluid: integración unificada en latencia de flujo a través de la destilación de tokens para la especialización de expertos en el aprendizaje multimodal

Fluid: integración unificada en latencia de flujo a través de la destilación de tokens para la especialización de expertos en el aprendizaje multimodal

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La clasificación multimodal requiere una integración sólida de señales visuales y textuales, sin embargo, las estrategias de fusión comunes son frágiles y vulnerables al ruido específico de la modalidad. En este documento, presentamos TextSC {fluid}-integración unificada de flujo-latente a través de la destilación de tokens para la especialización de expertos, una tubería de nivel de token de principios que mejora la robustez y escalabilidad intermodal. TextSC {fluid} contribuye con tres elementos centrales: (1) enfl {Q-Transforms}, tokens de consulta aprendiéndose que destilan y retienen características de nivel de token sobresaliente de las troncos específicas de modalidad; (2) Un esquema de fusión de dos etapas que aplica la consistencia intermodal a través de la alineación contrastante y luego realiza la fusión adaptativa y consciente de tareas a través de un mecanismo de activación y un enft {Q-Bottleneck} que comprime selectivamente información para el razonamiento posterior; y (3) una mezcla de expertos ligera y equilibrada en el tiempo de predicción que permite una especialización eficiente para diversos patrones semánticos. Experimentos extensos demuestran que TextSC {fluid} alcanza la precisión (91 %) en el punto de referencia GLAMI-1M, superando significativamente las líneas de base anteriores y exhibiendo una fuerte resiliencia para etiquetar el ruido, el desequilibrio de clase de cola larga y la heterogeneidad semántica. Los estudios de ablación dirigidos corroboran los beneficios individuales y sinérgicos de los componentes propuestos, posicionando textsc {fluid} como una solución escalable y resistente al ruido para la clasificación de productos multimodales.

Publicado Originalme en export.arxiv.org El 17 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web