Resumen: Los modelos de visión-lenguaje de gran tamaño (LVLM) han logrado avances notables en la percepción y generación multimodal, pero su alineación de seguridad sigue siendo un factor crítico. esta URL http defensas y vulnerables a jailbreaks multimodales, ya que las entradas visuales introducen nuevas superficies de ataque, las cadenas de razonamiento carecen de supervisión de seguridad y la alineación a menudo se degrada bajo la modalidad. esta URL http Para superar estas limitaciones, proponemos VisuoAlign, un marco para la alineación de seguridad multimodal a través de un árbol guiado por indicaciones. esta URL http incorpora restricciones de seguridad en el proceso de razonamiento a través de indicaciones interactivas visuales y textuales, emplea Monte Carlo Tree Search (MCTS) para construir sistemáticamente diversas trayectorias de indicaciones críticas para la seguridad e introduce escalamiento basado en indicaciones para garantizar la detección de riesgos en tiempo real y el cumplimiento de las normas. esta URL http Los experimentos demuestran que VisuoAlign expone riesgos de forma proactiva, permite la generación integral de conjuntos de datos y mejora significativamente la solidez de los LVLM contra amenazas intermodales complejas.
Publicado originalmente en export.arxiv.org el 20 de octubre de 2025.
Ver fuente original
