Medición del progreso de los agentes de IA en escenarios de ciberataques de varios pasos

Resumen:Evaluamos las capacidades autónomas de ciberataque de los modelos de IA de frontera en dos rangos cibernéticos especialmente diseñados (un ataque a una red corporativa de 32 pasos y un ataque a un sistema de control industrial de 7 pasos) que requieren encadenar capacidades heterogéneas a lo largo de secuencias de acción extendidas. Al comparar siete modelos lanzados durante un período de dieciocho meses (agosto de 2024 a febrero de 2026) con diferentes presupuestos de cómputo en tiempo de inferencia, observamos dos tendencias de capacidad. En primer lugar, el rendimiento del modelo escala de forma logarítmica de forma logarítmica con cálculo de tiempo de inferencia, sin que se observe un aumento de meseta de 10 millones a 100 millones de tokens, lo que produce ganancias de hasta el 59 %, sin requerir ninguna sofisticación técnica específica por parte del operador. En segundo lugar, cada generación sucesiva de modelos supera a su predecesor en presupuestos de tokens fijos: en el rango de la red corporativa, los pasos promedio completados con 10 millones de tokens aumentaron de 1,7 (GPT-4o, agosto de 2024) a 9,8 (Opus 4.6, febrero de 2026). La mejor ejecución completó 22 de 32 pasos, lo que corresponde aproximadamente a 6 de las 14 horas estimadas que necesitaría un experto humano. En la gama de sistemas de control industrial, el rendimiento sigue siendo limitado, aunque los modelos más recientes son los primeros en completar pasos de manera confiable, con un promedio de 1,2-1,4 de 7 (máximo 3).

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La demanda de electricidad de Google se está disparando

ChiEngMixBench: Evaluación de modelos de lenguaje grandes en generación mixta de código chino-inglés natural y espontáneo

MAPPO atento a los gráficos para precios minoristas dinámicos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido