Resumen: Los grandes modelos de razonamiento (LRM) logran un éxito notable a través de pasos de pensamiento explícitos, sin embargo, los pasos de pensamiento introducen un riesgo novedoso al amplificar potencialmente los comportamientos inseguros. A pesar de esta vulnerabilidad, los mecanismos de defensa convencionales siguen siendo ineficaces ya que pasan por alto la dinámica de razonamiento única de los LRM. En este trabajo, encontramos que la aparición de frases recordatorias de seguridad dentro de los pasos del pensamiento juega un papel fundamental para garantizar la seguridad de LRM. Motivados por este hallazgo, proponemos SafeRemind, un método de defensa en tiempo de decodificación que inyecta dinámicamente frases recordatorias de seguridad en los pasos del pensamiento. Al aprovechar los desencadenantes de entropía para intervenir en los puntos de bloqueo de decisiones, SafeRemind redirige trayectorias potencialmente dañinas hacia resultados más seguros sin requerir actualizaciones de parámetros. Evaluaciones exhaustivas en cinco LRM y seis puntos de referencia demuestran que SafeRemind mejora sustancialmente la seguridad, logrando mejoras de hasta un 45,5 % p y al mismo tiempo preserva la utilidad del razonamiento central.
Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original
