Resumen: Los sistemas de recuperación-generación aumentada (RAG) basados en modelos de lenguaje grande (LLM) se han convertido en una tecnología central para tareas como la respuesta a preguntas (QA) y la generación de contenido. Sin embargo, al inyectar documentos envenenados en la base de datos de los sistemas RAG, los atacantes pueden manipular los LLM para generar texto que se alinee con sus preferencias previstas. Las investigaciones existentes se han centrado principalmente en ataques de caja blanca contra arquitecturas RAG simplificadas. En este artículo, investigamos un escenario más complejo y realista: el atacante carece de conocimiento de la composición interna del sistema RAG y los detalles de implementación, y el sistema RAG comprende componentes más allá de un simple recuperador. Específicamente, proponemos el marco de ataque RIPRAG, un canal de ataque de extremo a extremo que trata el sistema RAG objetivo como una caja negra, donde la única información a la que puede acceder el atacante es si el envenenamiento tiene éxito. Nuestro método aprovecha el aprendizaje por refuerzo (RL) para optimizar el modelo de generación de documentos envenenados, asegurando que el documento envenenado generado se alinee con las preferencias del sistema RAG de destino. Los resultados experimentales demuestran que este método puede ejecutar eficazmente ataques de envenenamiento contra los sistemas RAG más complejos, logrando una mejora en la tasa de éxito del ataque (ASR) de hasta 0,72 en comparación con los métodos básicos. Esto resalta las deficiencias predominantes en los métodos defensivos actuales y proporciona información crítica para la investigación de seguridad de LLM.
Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original
