En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->RIFT-Bench: equipo rojo dinámico para sistemas de IA agentes

RIFT-Bench: equipo rojo dinámico para sistemas de IA agentes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los sistemas de IA agentes impulsados ​​por grandes modelos de lenguaje (LLM) están evolucionando rápidamente hacia sistemas autónomos de toma de decisiones, exponiendo vectores de ataque más allá de las vulnerabilidades de los LLM tradicionales. Las evaluaciones de seguridad existentes suelen estar vinculadas a implementaciones o dominios específicos, lo que limita la comparación unificada entre sistemas heterogéneos. Para abordar esta brecha, presentamos RIFT-Bench, una metodología basada en representación gráfica para equipos rojos dinámicos que permite evaluaciones unificadas en diversas arquitecturas agentes. Basándose en una representación jerárquica novedosa, RIFT-Bench opera en dos fases automatizadas: Descubrimiento, que extrae la estructura del sistema, y ​​Escaneo, que despliega ataques adversarios adaptativos y produce un informe de evaluación integral. Evalúa el sistema examinado en sí, aprovechando un amplio conjunto de sondas adversarias dinámicamente adaptables a través de diversos vectores de ataque y objetivos. Demostramos la efectividad del proceso de evaluación propuesto en 45 sistemas agentic que abarcan una amplia gama de implementaciones, mostrando que el enfoque se generaliza efectivamente a arquitecturas agentic heterogéneas. Más allá de los sistemas y los ataques, RIFT-Bench también apoya la evaluación directa de estrategias de mitigación. Estas capacidades clave hacen de RIFT-Bench una base escalable para la evaluación de seguridad de sistemas de IA agentes.

Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web