En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Tiene un costo la unificación? Uni-SafeBench: un punto de referencia de seguridad para modelos grandes multimodales unificados

¿Tiene un costo la unificación? Uni-SafeBench: un punto de referencia de seguridad para modelos grandes multimodales unificados

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos grandes multimodales unificados (UMLM) integran capacidades de comprensión y generación dentro de una única arquitectura. Si bien esta unificación arquitectónica, impulsada por la profunda fusión de características multimodales, mejora el rendimiento del modelo, también introduce importantes desafíos de seguridad aún poco explorados. Los puntos de referencia de seguridad existentes se centran predominantemente en tareas aisladas de comprensión o generación, sin evaluar la seguridad integral de los UMLM cuando manejan diversas tareas bajo un marco unificado. Para abordar esto, presentamos Uni-SafeBench, un punto de referencia integral que presenta una taxonomía de seis categorías de seguridad principales en siete tipos de tareas. Para garantizar una evaluación rigurosa, desarrollamos Uni-Judger, un marco que desacopla eficazmente la seguridad contextual de la seguridad intrínseca. Según evaluaciones integrales de Uni-SafeBench, descubrimos que, si bien el proceso de unificación mejora las capacidades del modelo, degrada significativamente la seguridad inherente del LLM subyacente. Además, los UMLM de código abierto exhiben un rendimiento de seguridad mucho menor que los grandes modelos multimodales especializados para tareas de generación o comprensión. Abrimos todos los recursos para exponer sistemáticamente estos riesgos y fomentar un desarrollo más seguro de AGI.

Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original

admin

Usuario de administración del sitio web