En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->STAR-S: Mejora de la alineación de la seguridad mediante el razonamiento autodidacta sobre las reglas de seguridad

STAR-S: Mejora de la alineación de la seguridad mediante el razonamiento autodidacta sobre las reglas de seguridad

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La defensa contra ataques de jailbreak es crucial para la implementación segura de modelos de lenguaje grande (LLM). Investigaciones recientes han intentado mejorar la seguridad entrenando modelos para razonar sobre las reglas de seguridad antes de responder. Sin embargo, una cuestión clave radica en determinar qué forma de razonamiento de seguridad defiende eficazmente contra los ataques de jailbreak, lo cual es difícil de diseñar explícitamente u obtener directamente. Para abordar esto, proponemos textbf{STAR-S} (textbf{S}elf-textbf{TA}ught textbf{R}razonamiento basado en textbf{S}reglas de seguridad), un marco que integra el aprendizaje del razonamiento de las reglas de seguridad en un ciclo autodidacta. El núcleo de STAR-S implica provocar razonamiento y reflexión guiados por reglas de seguridad y luego aprovechar el ajuste para mejorar el razonamiento de seguridad. Repetir este proceso crea un ciclo sinérgico. Las mejoras en el razonamiento y la interpretación de las reglas de seguridad del modelo le permiten producir mejores datos de razonamiento bajo indicaciones de reglas de seguridad, que luego se utilizan para capacitación adicional. Los experimentos muestran que STAR-S defiende eficazmente contra ataques de jailbreak, superando las líneas de base. El código está disponible en: esta URL https.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web