NeuroGenPoisoning: ataques guiados por neuronas en la recuperación aumentada de LLM mediante la optimización genética del conocimiento externo

Resumen: La generación aumentada de recuperación (RAG) permite que los modelos de lenguaje grande (LLM) integren dinámicamente el conocimiento externo durante la inferencia, mejorando su precisión fáctica y adaptabilidad. Sin embargo, los adversarios pueden inyectar conocimiento externo envenenado para anular la memoria interna del modelo. Si bien los ataques existentes manipulan de forma iterativa el contenido de recuperación o la estructura de RAG, ignoran en gran medida la dinámica de representación interna del modelo y las sensibilidades a nivel neuronal. El mecanismo subyacente del envenenamiento por RAG no se ha estudiado completamente y no se considera el efecto del conflicto de conocimiento con un conocimiento paramétrico sólido en RAG. En este trabajo, proponemos NeuroGenPoisoning, un marco de ataque novedoso que genera conocimiento externo adversario en RAG guiado por la atribución de neuronas internas LLM y la optimización genética. Nuestro método identifica primero un conjunto de neuronas sensibles al veneno cuya activación se correlaciona fuertemente con el conocimiento contextual del envenenamiento. Luego empleamos un algoritmo genético para desarrollar pasajes adversarios que activen al máximo estas neuronas. Fundamentalmente, nuestro marco permite la generación a gran escala de conocimiento RAG envenenado efectivo mediante la identificación y reutilización de variantes de conocimiento externo prometedoras pero inicialmente fallidas a través de señales de atribución observadas. Al mismo tiempo, el envenenamiento guiado por neuronas sensibles al veneno puede resolver eficazmente los conflictos de conocimiento. Los resultados experimentales en modelos y conjuntos de datos demuestran que se logra consistentemente una alta tasa de éxito de sobrescritura de la población (POSR) de más del 90 %, preservando al mismo tiempo la fluidez. La evidencia empírica muestra que nuestro método resuelve eficazmente los conflictos de conocimiento.

Publicado originalmente en export.arxiv.org el 26 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Abierta consulta pública sobre la futura Ley Europea de Materiales Avanzados

MCP-Universe: Benchmarking Modelos de idiomas grandes con servidores de protocolo de contexto del modelo de mundo real

Mezcla de pensamientos visuales: explorar la selección del modo de razonamiento adaptativo para el contexto para el razonamiento visual general

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido