Desactivación de los desencadenantes de rechazo: comprensión y mitigación del rechazo excesivo en la alineación de la seguridad

Resumen: La alineación de seguridad tiene como objetivo garantizar que los modelos de lenguaje grandes (LLM) rechacen solicitudes dañinas mediante una capacitación posterior sobre consultas dañinas combinadas con respuestas de rechazo. Aunque la alineación de la seguridad se adopta ampliamente en la industria, el problema del rechazo excesivo en el que los LLM alineados también rechazan consultas benignas después de la alineación de la seguridad después de la capacitación aún no se ha estudiado lo suficiente. Este problema degrada la usabilidad de la alineación de seguridad en aplicaciones del mundo real. En este artículo, examinamos cómo surge el rechazo excesivo bajo la alineación de seguridad y proponemos una estrategia de mitigación inspirada en nuestros hallazgos. Definimos los desencadenantes de rechazo como señales lingüísticas en los datos de capacitación que provocan respuestas de rechazo; la alineación de seguridad alienta a los LLM a asociar desencadenantes de rechazo dentro de una muestra de capacitación con respuestas de rechazo, lo que lleva a los LLM alineados a rechazar consultas dañinas. Sin embargo, los factores desencadenantes del rechazo incluyen no sólo señales lingüísticas dañinas sino también señales no dañinas, lo que provoca un rechazo excesivo a consultas benignas. Sobre la base de este análisis mecanicista, proponemos un método que considera explícitamente los desencadenantes de rechazo en el ajuste de la alineación de seguridad. Los resultados empíricos demuestran que nuestro enfoque logra un equilibrio más favorable entre la defensa contra ataques de jailbreak y la capacidad de respuesta a consultas benignas, superando a los métodos anteriores. Advertencia: este artículo contiene frases perjudiciales y sesgadas.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Las explicaciones más generales de los conjuntos de árboles

OpenAgri Project y AgStack Foundation unen fuerzas para revolucionar la agricultura digital para la era de la IA; Lanza Pancake para unificar herramientas de código abierto en un marco nativo de IA

Una piedra de Rosetta para los puntos de referencia de la IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido