Resumen: Los sistemas de IA agentes impulsados por grandes modelos de lenguaje (LLM) están evolucionando rápidamente hacia sistemas autónomos de toma de decisiones, exponiendo vectores de ataque más allá de las vulnerabilidades de los LLM tradicionales. Las evaluaciones de seguridad existentes suelen estar vinculadas a implementaciones o dominios específicos, lo que limita la comparación unificada entre sistemas heterogéneos. Para abordar esta brecha, presentamos RIFT-Bench, una metodología basada en representación gráfica para equipos rojos dinámicos que permite evaluaciones unificadas en diversas arquitecturas agentes. Basándose en una representación jerárquica novedosa, RIFT-Bench opera en dos fases automatizadas: Descubrimiento, que extrae la estructura del sistema, y Escaneo, que despliega ataques adversarios adaptativos y produce un informe de evaluación integral. Evalúa el sistema examinado en sí, aprovechando un amplio conjunto de sondas adversarias dinámicamente adaptables a través de diversos vectores de ataque y objetivos. Demostramos la efectividad del proceso de evaluación propuesto en 45 sistemas agentic que abarcan una amplia gama de implementaciones, mostrando que el enfoque se generaliza efectivamente a arquitecturas agentic heterogéneas. Más allá de los sistemas y los ataques, RIFT-Bench también apoya la evaluación directa de estrategias de mitigación. Estas capacidades clave hacen de RIFT-Bench una base escalable para la evaluación de seguridad de sistemas de IA agentes.
Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original
