Safecot: Mejora de la seguridad de VLM con un razonamiento mínimo

Resumen: Asegurar las respuestas seguras y apropiadas de los modelos en idioma de visión (VLMS) sigue siendo un desafío crítico, particularmente en escenarios de alto riesgo o ambiguos. Introducimos a Safecot, un marco liviano e interpretable que aprovecha la supervisión de la cadena de pensamiento basada en reglas (COT) para mejorar el comportamiento de rechazo en VLM. A diferencia de los métodos anteriores que se basan en anotaciones de seguridad a gran escala o modelado complejo, Safecot utiliza una supervisión mínima para ayudar a los modelos razonamiento sobre los riesgos de seguridad y hacer rechazos con el contexto. Los experimentos en múltiples puntos de referencia muestran que Safecot reduce significativamente la sobrerefusia y mejora la generalización, incluso con datos de entrenamiento limitados. Nuestro enfoque ofrece una solución escalable para alinear los VLM con objetivos críticos de seguridad.

Publicado Originalme en rss.arxiv.org El 10 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El investigador de IA presupuestario y el poder de las cadenas de trapo

De texto a red: construyendo un gráfico de conocimiento de los estudios de China basados ​​en Taiwán utilizando IA generativa

CFP: pista especial sobre blockchain y tecnologías descentralizadas para el bien social (bandido) @ ACM Goodit 2025

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

De texto a red: construyendo un gráfico de conocimiento de los estudios de China basados en Taiwán utilizando IA generativa