En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Medición del progreso de los agentes de IA en escenarios de ciberataques de varios pasos

Medición del progreso de los agentes de IA en escenarios de ciberataques de varios pasos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Evaluamos las capacidades autónomas de ciberataque de los modelos de IA de frontera en dos rangos cibernéticos especialmente diseñados (un ataque a una red corporativa de 32 pasos y un ataque a un sistema de control industrial de 7 pasos) que requieren encadenar capacidades heterogéneas a lo largo de secuencias de acción extendidas. Al comparar siete modelos lanzados durante un período de dieciocho meses (agosto de 2024 a febrero de 2026) con diferentes presupuestos de cómputo en tiempo de inferencia, observamos dos tendencias de capacidad. En primer lugar, el rendimiento del modelo escala de forma logarítmica de forma logarítmica con cálculo de tiempo de inferencia, sin que se observe un aumento de meseta de 10 millones a 100 millones de tokens, lo que produce ganancias de hasta el 59 %, sin requerir ninguna sofisticación técnica específica por parte del operador. En segundo lugar, cada generación sucesiva de modelos supera a su predecesor en presupuestos de tokens fijos: en el rango de la red corporativa, los pasos promedio completados con 10 millones de tokens aumentaron de 1,7 (GPT-4o, agosto de 2024) a 9,8 (Opus 4.6, febrero de 2026). La mejor ejecución completó 22 de 32 pasos, lo que corresponde aproximadamente a 6 de las 14 horas estimadas que necesitaría un experto humano. En la gama de sistemas de control industrial, el rendimiento sigue siendo limitado, aunque los modelos más recientes son los primeros en completar pasos de manera confiable, con un promedio de 1,2-1,4 de 7 (máximo 3).

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web