En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Cuando los modelos piensan más que su seguridad: mitigar la auto-jailbreak en modelos de gran razonamiento con cadenas de seguridad

Cuando los modelos piensan más que su seguridad: mitigar la auto-jailbreak en modelos de gran razonamiento con cadenas de seguridad

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de razonamiento de gran tamaño (LRM) demuestran capacidades notables en tareas de razonamiento complejas, pero siguen siendo vulnerables a graves riesgos de seguridad, incluida la generación de contenido dañino y ataques de jailbreak. Las estrategias de mitigación existentes se basan en la inyección de señales de seguridad heurísticas durante el entrenamiento, que a menudo suprimen la capacidad de razonamiento y no logran resolver el equilibrio entre razonamiento de seguridad. Para investigar sistemáticamente este problema, analizamos las trayectorias de razonamiento de diversos LRM y descubrimos un fenómeno que denominamos Self-Jailbreak, donde los modelos anulan sus propias evaluaciones de riesgos y justifican responder a indicaciones inseguras. Este hallazgo revela que los LRM poseen inherentemente la capacidad de rechazar consultas inseguras, pero esta capacidad se ve comprometida, lo que genera resultados dañinos. Sobre la base de estos conocimientos, proponemos Chain-of-Guardrail (CoG), un marco de capacitación que recompone o retrocede pasos de razonamiento inseguros, devolviendo el modelo a trayectorias seguras y preservando al mismo tiempo cadenas de razonamiento válidas. Amplios experimentos a través de múltiples puntos de referencia de razonamiento y seguridad demuestran que CoG mejora sustancialmente la seguridad de los LRM actuales al tiempo que preserva una capacidad de razonamiento comparable, superando significativamente a los métodos anteriores que adolecen de graves compensaciones entre el razonamiento de seguridad.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web