Resumen: A medida que se implementan grandes modelos de lenguaje (LLM) en configuraciones críticas de seguridad, es esencial garantizar que sus respuestas cumplan con los estándares de seguridad. Investigaciones anteriores han revelado que los LLM a menudo no logran comprender la noción de comportamientos seguros, lo que resulta en negaciones injustificadas a indicaciones inofensivas o la generación de contenido dañino. Si bien se han realizado esfuerzos sustanciales para mejorar su robustez, las defensas existentes a menudo dependen de un ajuste costoso de los parámetros del modelo o emplean técnicas heurísticas subóptimas. En este trabajo, adoptamos un enfoque novedoso para salvaguardar LLMS aprendiendo a adaptar las indicaciones del sistema en LLMS ajustadas a instrucciones. Si bien los LLM generalmente se entrenan previamente para seguir un mensaje de sistema fijo, investigamos el impacto de adaptar el indicador del sistema a cada entrada específica del usuario sobre la seguridad de las respuestas. Para este fin, proponemos $ textbf {sysformer} $, un modelo trans $ textbf {ex} $ que actualiza un indicador inicial $ textbf {sys} $ tem para un indicador más robusto del sistema en el espacio de incrustación de entrada LLM mientras atiende a la solicitud del usuario. Mientras mantiene los parámetros de LLM congelados, el Sysformer está entrenado para negarse a responder a un conjunto de indicaciones dañinas mientras responde idealmente a un conjunto de seguros. A través de extensos experimentos en $ 5 $ LLM de diferentes familias y $ 2 $ puntos de referencia recientes, demostramos que SYSFORMER puede mejorar significativamente la solidez de los LLM, lo que lleva a una ganancia de hasta $ 80 %$ en la tasa de rechazo de indicaciones nocivas al tiempo que mejora el cumplimiento con las indicaciones seguras por hasta $ 90 %$. Los resultados también se generalizan bien a los sofisticados ataques de jailbreaking, lo que hace que los LLM estén hasta $ 100 %$ más sólidos contra diferentes estrategias de ataque. Esperamos que nuestros hallazgos conduzcan a una protección más barata de LLM y motiven futuras investigaciones para diseñar indicaciones del sistema variable.
Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original