Resumen: Los sistemas de generación aumentada de recuperación basada en gráficos (GraphRAG) construyen gráficos de conocimiento sobre colecciones de documentos para respaldar el razonamiento de múltiples saltos. Si bien trabajos anteriores muestran que las respuestas de GraphRAG pueden filtrar subgrafos recuperados, la viabilidad de una reconstrucción eficiente de la estructura del gráfico oculto permanece inexplorada con presupuestos de consultas realistas. Estudiamos una configuración de caja negra con presupuesto limitado donde un adversario consulta de forma adaptativa al sistema para robar su gráfico latente de relación entre entidades. Proponemos AGEA (Agentic Graph Extraction Attack), un marco que aprovecha una estrategia de exploración-explotación guiada por novedades, módulos de memoria de gráficos externos y un proceso de extracción de gráficos de dos etapas que combina un descubrimiento liviano con un filtrado basado en LLM. Evaluamos AGEA en conjuntos de datos médicos, agrícolas y literarios en los sistemas Microsoft-GraphRAG y LightRAG. Con presupuestos de consultas idénticos, AGEA supera significativamente las líneas de base de ataques anteriores, recuperando hasta el 90 % de las entidades y relaciones mientras mantiene una alta precisión. Estos resultados demuestran que los sistemas GraphRAG modernos son altamente vulnerables a ataques de extracción estructurados y agentes, incluso bajo límites de consulta estrictos.
Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original
