Una barandilla para la preservación de la seguridad: cuando el subespacio sensible a la seguridad se encuentra con el espacio nulo resistente a los daños
Resumen: Los modelos de lenguajes grandes (LLM) han logrado un éxito notable en diversas tareas, pero su alineación de seguridad sigue siendo frágil durante la adaptación. Incluso cuando se ajustan datos benignos o con una adaptación de bajo rango, los comportamientos de seguridad previamente entrenados se degradan fácilmente, lo que genera respuestas dañinas en los modelos ajustados.
Leer más →