Resumen: Asegurar las respuestas seguras y apropiadas de los modelos en idioma de visión (VLMS) sigue siendo un desafío crítico, particularmente en escenarios de alto riesgo o ambiguos. Introducimos a Safecot, un marco liviano e interpretable que aprovecha la supervisión de la cadena de pensamiento basada en reglas (COT) para mejorar el comportamiento de rechazo en VLM. A diferencia de los métodos anteriores que se basan en anotaciones de seguridad a gran escala o modelado complejo, Safecot utiliza una supervisión mínima para ayudar a los modelos razonamiento sobre los riesgos de seguridad y hacer rechazos con el contexto. Los experimentos en múltiples puntos de referencia muestran que Safecot reduce significativamente la sobrerefusia y mejora la generalización, incluso con datos de entrenamiento limitados. Nuestro enfoque ofrece una solución escalable para alinear los VLM con objetivos críticos de seguridad.
Publicado Originalme en rss.arxiv.org El 10 de junio de 2025.
Ver Fuente Original