En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Desactivación de los desencadenantes de rechazo: comprensión y mitigación del rechazo excesivo en la alineación de la seguridad

Desactivación de los desencadenantes de rechazo: comprensión y mitigación del rechazo excesivo en la alineación de la seguridad

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La alineación de seguridad tiene como objetivo garantizar que los modelos de lenguaje grandes (LLM) rechacen solicitudes dañinas mediante una capacitación posterior sobre consultas dañinas combinadas con respuestas de rechazo. Aunque la alineación de la seguridad se adopta ampliamente en la industria, el problema del rechazo excesivo en el que los LLM alineados también rechazan consultas benignas después de la alineación de la seguridad después de la capacitación aún no se ha estudiado lo suficiente. Este problema degrada la usabilidad de la alineación de seguridad en aplicaciones del mundo real. En este artículo, examinamos cómo surge el rechazo excesivo bajo la alineación de seguridad y proponemos una estrategia de mitigación inspirada en nuestros hallazgos. Definimos los desencadenantes de rechazo como señales lingüísticas en los datos de capacitación que provocan respuestas de rechazo; la alineación de seguridad alienta a los LLM a asociar desencadenantes de rechazo dentro de una muestra de capacitación con respuestas de rechazo, lo que lleva a los LLM alineados a rechazar consultas dañinas. Sin embargo, los factores desencadenantes del rechazo incluyen no sólo señales lingüísticas dañinas sino también señales no dañinas, lo que provoca un rechazo excesivo a consultas benignas. Sobre la base de este análisis mecanicista, proponemos un método que considera explícitamente los desencadenantes de rechazo en el ajuste de la alineación de seguridad. Los resultados empíricos demuestran que nuestro enfoque logra un equilibrio más favorable entre la defensa contra ataques de jailbreak y la capacidad de respuesta a consultas benignas, superando a los métodos anteriores. Advertencia: este artículo contiene frases perjudiciales y sesgadas.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web