En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Cómo influye el paso de pensamiento en la seguridad del modelo? Un recordatorio de seguridad basado en la entropía para los LRM

¿Cómo influye el paso de pensamiento en la seguridad del modelo? Un recordatorio de seguridad basado en la entropía para los LRM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los grandes modelos de razonamiento (LRM) logran un éxito notable a través de pasos de pensamiento explícitos, sin embargo, los pasos de pensamiento introducen un riesgo novedoso al amplificar potencialmente los comportamientos inseguros. A pesar de esta vulnerabilidad, los mecanismos de defensa convencionales siguen siendo ineficaces ya que pasan por alto la dinámica de razonamiento única de los LRM. En este trabajo, encontramos que la aparición de frases recordatorias de seguridad dentro de los pasos del pensamiento juega un papel fundamental para garantizar la seguridad de LRM. Motivados por este hallazgo, proponemos SafeRemind, un método de defensa en tiempo de decodificación que inyecta dinámicamente frases recordatorias de seguridad en los pasos del pensamiento. Al aprovechar los desencadenantes de entropía para intervenir en los puntos de bloqueo de decisiones, SafeRemind redirige trayectorias potencialmente dañinas hacia resultados más seguros sin requerir actualizaciones de parámetros. Evaluaciones exhaustivas en cinco LRM y seis puntos de referencia demuestran que SafeRemind mejora sustancialmente la seguridad, logrando mejoras de hasta un 45,5 % p y al mismo tiempo preserva la utilidad del razonamiento central.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web