En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Probar la vulnerabilidad de los modelos de idiomas grandes a las intervenciones polisemánticas

Probar la vulnerabilidad de los modelos de idiomas grandes a las intervenciones polisemánticas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Polysemanticity, donde las neuronas individuales codifican múltiples características no relacionadas, es una característica bien conocida de grandes redes neuronales y sigue siendo un desafío central en la interpretabilidad de los modelos de lenguaje. Al mismo tiempo, sus implicaciones para la seguridad del modelo también son poco conocidas. Aprovechando los avances recientes en autoencoders escasos, investigamos la estructura polisemántica de dos pequeños modelos (Pythia-70M y GPT-2-Small) y evaluamos su vulnerabilidad a las intervenciones encubiertas y encubiertas en los niveles rápidos, característicos, token y neuronas. Nuestro análisis revela una topología polisemántica consistente compartida en ambos modelos. Sorprendentemente, demostramos que esta estructura puede explotarse para montar intervenciones efectivas en dos modelos de instrucciones de caja negra más grandes (Llama3.1-8b-Instructo y Gemma-2-9B-Instructo). Estos hallazgos sugieren no solo la generalización de las intervenciones, sino que también apuntan a una estructura polisemántica estable y transferible que podría persistir en las arquitecturas y los regímenes de capacitación.

Publicado Originalme en rss.arxiv.org El 19 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web