En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Xuanwu: evolución de modelos multimodales generales hacia una base de grado industrial para ecosistemas de contenido

Xuanwu: evolución de modelos multimodales generales hacia una base de grado industrial para ecosistemas de contenido

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:En los últimos años, los grandes modelos multimodales han seguido mejorando en los puntos de referencia generales. Sin embargo, en entornos de moderación de contenido y confrontación del mundo real, los modelos convencionales todavía sufren de una generalización degradada y un olvido catastrófico debido a una percepción visual detallada limitada y un modelado insuficiente del ruido de cola larga. En este artículo, presentamos Xuanwu VL-2B como un estudio de caso de cómo los modelos multimodales generales se pueden desarrollar en un modelo básico de grado industrial para ecosistemas de contenido. El modelo adopta una arquitectura compacta InternViT-300M + MLP + Qwen3 1.7B, que equilibra la percepción visual detallada, la alineación semántica del lenguaje y el costo de implementación dentro de un presupuesto de aproximadamente 2B de parámetros. Para equilibrar la especialización empresarial con la retención de capacidades generales, desarrollamos un mecanismo de curación e iteración de datos y entrenamos el modelo a través de un proceso progresivo de tres etapas: antes de la capacitación, a mitad de la capacitación y después de la capacitación. Los estudios de ablación y las evaluaciones comerciales fuera de línea muestran que Xuanwu VL-2B logra una puntuación promedio de 67,90 en siete métricas multimodales OpenCompass (frente a 64,27 para InternVL 3.5 2B), una recuperación promedio del 94,38 % en siete tareas independientes de moderación empresarial y una recuperación general ponderada del 82,82 % en textos que violan políticas en escenarios desafiantes de OCR adversarios, superando Géminis-2.5-Pro (76,72%). Estos resultados muestran que, con un presupuesto de parámetros limitado, Xuanwu VL-2B logra un equilibrio práctico entre la alineación comercial, la percepción visual, la retención de capacidad general y el costo de implementación.

Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web