Probar la vulnerabilidad de los modelos de idiomas grandes a las intervenciones polisemánticas

Resumen: Polysemanticity, donde las neuronas individuales codifican múltiples características no relacionadas, es una característica bien conocida de grandes redes neuronales y sigue siendo un desafío central en la interpretabilidad de los modelos de lenguaje. Al mismo tiempo, sus implicaciones para la seguridad del modelo también son poco conocidas. Aprovechando los avances recientes en autoencoders escasos, investigamos la estructura polisemántica de dos pequeños modelos (Pythia-70M y GPT-2-Small) y evaluamos su vulnerabilidad a las intervenciones encubiertas y encubiertas en los niveles rápidos, característicos, token y neuronas. Nuestro análisis revela una topología polisemántica consistente compartida en ambos modelos. Sorprendentemente, demostramos que esta estructura puede explotarse para montar intervenciones efectivas en dos modelos de instrucciones de caja negra más grandes (Llama3.1-8b-Instructo y Gemma-2-9B-Instructo). Estos hallazgos sugieren no solo la generalización de las intervenciones, sino que también apuntan a una estructura polisemántica estable y transferible que podría persistir en las arquitecturas y los regímenes de capacitación.

Publicado Originalme en rss.arxiv.org El 19 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Q-ARDNS-MULTI: un marco de aprendizaje de refuerzo cuántico de múltiples agentes con adaptación meta-cognitiva para entornos 3D complejos

Pre-Act: la planificación y el razonamiento de varios pasos mejora la actuación en los agentes de LLM

De IoT a la innovación de las cosas: una conversación con Jared Deith, EVP y Cro en Kore

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido