Guardrentioner-VL: salvaguardar VLM a través del razonamiento reforzado

Resumen: Para mejorar la seguridad de los VLM, este documento presenta un nuevo modelo de guardia VLM basado en el razonamiento denominado Guardreador-VL. La idea central es incentivar al modelo de guardia a razonar deliberativamente antes de tomar decisiones de moderación a través de RL en línea. Primero, construimos GuardRasoner-vltrain, un corpus de razonamiento con 123k muestras y 631k pasos de razonamiento, que abarcan texto, imagen e entradas de imagen de texto. Luego, según ello, iniciamos la capacidad de razonamiento de nuestro modelo a través de SFT. Además, mejoramos aún más el razonamiento con respecto a la moderación a través de RL en línea. Concretamente, para mejorar la diversidad y la dificultad de las muestras, realizamos un muestreo de rechazo seguido de un aumento de datos a través de la concatenación de datos de seguridad propuesta. Además, utilizamos un parámetro de recorte dinámico para fomentar la exploración en las primeras etapas y la explotación en etapas posteriores. Para equilibrar el rendimiento y la eficiencia del token, diseñamos una recompensa de seguridad consciente de la longitud que integra precisión, formato y costo de token. Experimentos extensos demuestran la superioridad de nuestro modelo. Sorprendentemente, supera al subcampeón en un puntaje F1 de 19.27% en promedio. Liberamos datos, código y modelos (3B/7B) de BuardRasoner-VL en esta URL HTTPS

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Identificación de probabilidades de causalidad: una caracterización completa

Gemelos digitales para IoT

Sondeo de invariancia guiado por el lenguaje de modelos de visión-lenguaje

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido