En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->VisuoAlign: Alineación de seguridad de LVLM con búsqueda de árbol multimodal

VisuoAlign: Alineación de seguridad de LVLM con búsqueda de árbol multimodal

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de visión-lenguaje de gran tamaño (LVLM) han logrado avances notables en la percepción y generación multimodal, pero su alineación de seguridad sigue siendo un factor crítico. esta URL http defensas y vulnerables a jailbreaks multimodales, ya que las entradas visuales introducen nuevas superficies de ataque, las cadenas de razonamiento carecen de supervisión de seguridad y la alineación a menudo se degrada bajo la modalidad. esta URL http Para superar estas limitaciones, proponemos VisuoAlign, un marco para la alineación de seguridad multimodal a través de un árbol guiado por indicaciones. esta URL http incorpora restricciones de seguridad en el proceso de razonamiento a través de indicaciones interactivas visuales y textuales, emplea Monte Carlo Tree Search (MCTS) para construir sistemáticamente diversas trayectorias de indicaciones críticas para la seguridad e introduce escalamiento basado en indicaciones para garantizar la detección de riesgos en tiempo real y el cumplimiento de las normas. esta URL http Los experimentos demuestran que VisuoAlign expone riesgos de forma proactiva, permite la generación integral de conjuntos de datos y mejora significativamente la solidez de los LVLM contra amenazas intermodales complejas.

Publicado originalmente en export.arxiv.org el 20 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web