¿Cómo influye el paso de pensamiento en la seguridad del modelo? Un recordatorio de seguridad basado en la entropía para los LRM

Resumen: Los grandes modelos de razonamiento (LRM) logran un éxito notable a través de pasos de pensamiento explícitos, sin embargo, los pasos de pensamiento introducen un riesgo novedoso al amplificar potencialmente los comportamientos inseguros. A pesar de esta vulnerabilidad, los mecanismos de defensa convencionales siguen siendo ineficaces ya que pasan por alto la dinámica de razonamiento única de los LRM. En este trabajo, encontramos que la aparición de frases recordatorias de seguridad dentro de los pasos del pensamiento juega un papel fundamental para garantizar la seguridad de LRM. Motivados por este hallazgo, proponemos SafeRemind, un método de defensa en tiempo de decodificación que inyecta dinámicamente frases recordatorias de seguridad en los pasos del pensamiento. Al aprovechar los desencadenantes de entropía para intervenir en los puntos de bloqueo de decisiones, SafeRemind redirige trayectorias potencialmente dañinas hacia resultados más seguros sin requerir actualizaciones de parámetros. Evaluaciones exhaustivas en cinco LRM y seis puntos de referencia demuestran que SafeRemind mejora sustancialmente la seguridad, logrando mejoras de hasta un 45,5 % p y al mismo tiempo preserva la utilidad del razonamiento central.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Comprensión ambiental eficiente y generalizable para la navegación visual

Más allá de lo conocido: Toma de decisiones con transformador de decisión de razonamiento contrafactual

Webinar Aioti presenta papel de movilidad

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido