Xuanwu: evolución de modelos multimodales generales hacia una base de grado industrial para ecosistemas de contenido

Resumen:En los últimos años, los grandes modelos multimodales han seguido mejorando en los puntos de referencia generales. Sin embargo, en entornos de moderación de contenido y confrontación del mundo real, los modelos convencionales todavía sufren de una generalización degradada y un olvido catastrófico debido a una percepción visual detallada limitada y un modelado insuficiente del ruido de cola larga. En este artículo, presentamos Xuanwu VL-2B como un estudio de caso de cómo los modelos multimodales generales se pueden desarrollar en un modelo básico de grado industrial para ecosistemas de contenido. El modelo adopta una arquitectura compacta InternViT-300M + MLP + Qwen3 1.7B, que equilibra la percepción visual detallada, la alineación semántica del lenguaje y el costo de implementación dentro de un presupuesto de aproximadamente 2B de parámetros. Para equilibrar la especialización empresarial con la retención de capacidades generales, desarrollamos un mecanismo de curación e iteración de datos y entrenamos el modelo a través de un proceso progresivo de tres etapas: antes de la capacitación, a mitad de la capacitación y después de la capacitación. Los estudios de ablación y las evaluaciones comerciales fuera de línea muestran que Xuanwu VL-2B logra una puntuación promedio de 67,90 en siete métricas multimodales OpenCompass (frente a 64,27 para InternVL 3.5 2B), una recuperación promedio del 94,38 % en siete tareas independientes de moderación empresarial y una recuperación general ponderada del 82,82 % en textos que violan políticas en escenarios desafiantes de OCR adversarios, superando Géminis-2.5-Pro (76,72%). Estos resultados muestran que, con un presupuesto de parámetros limitado, Xuanwu VL-2B logra un equilibrio práctico entre la alineación comercial, la percepción visual, la retención de capacidad general y el costo de implementación.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Pensamiento-crítica gradual: un marco unificado para un razonamiento de LLM sólido e interpretable

Por qué los conservacionistas están haciendo que los rinocerontes sean radiactivos

Modelado de optimización automatizada a través del razonamiento del modelo de lenguaje grande guiado por expertos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido