En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->NeuroGenPoisoning: ataques guiados por neuronas en la recuperación aumentada de LLM mediante la optimización genética del conocimiento externo

NeuroGenPoisoning: ataques guiados por neuronas en la recuperación aumentada de LLM mediante la optimización genética del conocimiento externo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La generación aumentada de recuperación (RAG) permite que los modelos de lenguaje grande (LLM) integren dinámicamente el conocimiento externo durante la inferencia, mejorando su precisión fáctica y adaptabilidad. Sin embargo, los adversarios pueden inyectar conocimiento externo envenenado para anular la memoria interna del modelo. Si bien los ataques existentes manipulan de forma iterativa el contenido de recuperación o la estructura de RAG, ignoran en gran medida la dinámica de representación interna del modelo y las sensibilidades a nivel neuronal. El mecanismo subyacente del envenenamiento por RAG no se ha estudiado completamente y no se considera el efecto del conflicto de conocimiento con un conocimiento paramétrico sólido en RAG. En este trabajo, proponemos NeuroGenPoisoning, un marco de ataque novedoso que genera conocimiento externo adversario en RAG guiado por la atribución de neuronas internas LLM y la optimización genética. Nuestro método identifica primero un conjunto de neuronas sensibles al veneno cuya activación se correlaciona fuertemente con el conocimiento contextual del envenenamiento. Luego empleamos un algoritmo genético para desarrollar pasajes adversarios que activen al máximo estas neuronas. Fundamentalmente, nuestro marco permite la generación a gran escala de conocimiento RAG envenenado efectivo mediante la identificación y reutilización de variantes de conocimiento externo prometedoras pero inicialmente fallidas a través de señales de atribución observadas. Al mismo tiempo, el envenenamiento guiado por neuronas sensibles al veneno puede resolver eficazmente los conflictos de conocimiento. Los resultados experimentales en modelos y conjuntos de datos demuestran que se logra consistentemente una alta tasa de éxito de sobrescritura de la población (POSR) de más del 90 %, preservando al mismo tiempo la fluidez. La evidencia empírica muestra que nuestro método resuelve eficazmente los conflictos de conocimiento.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web