Resumen: Polysemanticity, donde las neuronas individuales codifican múltiples características no relacionadas, es una característica bien conocida de grandes redes neuronales y sigue siendo un desafío central en la interpretabilidad de los modelos de lenguaje. Al mismo tiempo, sus implicaciones para la seguridad del modelo también son poco conocidas. Aprovechando los avances recientes en autoencoders escasos, investigamos la estructura polisemántica de dos pequeños modelos (Pythia-70M y GPT-2-Small) y evaluamos su vulnerabilidad a las intervenciones encubiertas y encubiertas en los niveles rápidos, característicos, token y neuronas. Nuestro análisis revela una topología polisemántica consistente compartida en ambos modelos. Sorprendentemente, demostramos que esta estructura puede explotarse para montar intervenciones efectivas en dos modelos de instrucciones de caja negra más grandes (Llama3.1-8b-Instructo y Gemma-2-9B-Instructo). Estos hallazgos sugieren no solo la generalización de las intervenciones, sino que también apuntan a una estructura polisemántica estable y transferible que podría persistir en las arquitecturas y los regímenes de capacitación.
Publicado Originalme en rss.arxiv.org El 19 de mayo de 2025.
Ver Fuente Original