Cuando los modelos piensan más que su seguridad: mitigar la auto-jailbreak en modelos de gran razonamiento con cadenas de seguridad

Resumen: Los modelos de razonamiento de gran tamaño (LRM) demuestran capacidades notables en tareas de razonamiento complejas, pero siguen siendo vulnerables a graves riesgos de seguridad, incluida la generación de contenido dañino y ataques de jailbreak. Las estrategias de mitigación existentes se basan en la inyección de señales de seguridad heurísticas durante el entrenamiento, que a menudo suprimen la capacidad de razonamiento y no logran resolver el equilibrio entre razonamiento de seguridad. Para investigar sistemáticamente este problema, analizamos las trayectorias de razonamiento de diversos LRM y descubrimos un fenómeno que denominamos Self-Jailbreak, donde los modelos anulan sus propias evaluaciones de riesgos y justifican responder a indicaciones inseguras. Este hallazgo revela que los LRM poseen inherentemente la capacidad de rechazar consultas inseguras, pero esta capacidad se ve comprometida, lo que genera resultados dañinos. Sobre la base de estos conocimientos, proponemos Chain-of-Guardrail (CoG), un marco de capacitación que recompone o retrocede pasos de razonamiento inseguros, devolviendo el modelo a trayectorias seguras y preservando al mismo tiempo cadenas de razonamiento válidas. Amplios experimentos a través de múltiples puntos de referencia de razonamiento y seguridad demuestran que CoG mejora sustancialmente la seguridad de los LRM actuales al tiempo que preserva una capacidad de razonamiento comparable, superando significativamente a los métodos anteriores que adolecen de graves compensaciones entre el razonamiento de seguridad.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MEML-GRPO: aprendizaje mutuo múltiple heterogéneo para avance RLVR

Inteligencia artificial holística en medicina; rendimiento mejorado y explicación

Webinar conjunta One6g/AIOti “Robótica 6G Empowered”

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido