En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Guardrentioner-VL: salvaguardar VLM a través del razonamiento reforzado

Guardrentioner-VL: salvaguardar VLM a través del razonamiento reforzado

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Para mejorar la seguridad de los VLM, este documento presenta un nuevo modelo de guardia VLM basado en el razonamiento denominado Guardreador-VL. La idea central es incentivar al modelo de guardia a razonar deliberativamente antes de tomar decisiones de moderación a través de RL en línea. Primero, construimos GuardRasoner-vltrain, un corpus de razonamiento con 123k muestras y 631k pasos de razonamiento, que abarcan texto, imagen e entradas de imagen de texto. Luego, según ello, iniciamos la capacidad de razonamiento de nuestro modelo a través de SFT. Además, mejoramos aún más el razonamiento con respecto a la moderación a través de RL en línea. Concretamente, para mejorar la diversidad y la dificultad de las muestras, realizamos un muestreo de rechazo seguido de un aumento de datos a través de la concatenación de datos de seguridad propuesta. Además, utilizamos un parámetro de recorte dinámico para fomentar la exploración en las primeras etapas y la explotación en etapas posteriores. Para equilibrar el rendimiento y la eficiencia del token, diseñamos una recompensa de seguridad consciente de la longitud que integra precisión, formato y costo de token. Experimentos extensos demuestran la superioridad de nuestro modelo. Sorprendentemente, supera al subcampeón en un puntaje F1 de 19.27% ​​en promedio. Liberamos datos, código y modelos (3B/7B) de BuardRasoner-VL en esta URL HTTPS

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web