En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Desde las capacidades hasta el rendimiento: evaluar las propiedades funcionales clave de las arquitecturas LLM en las pruebas de penetración

Desde las capacidades hasta el rendimiento: evaluar las propiedades funcionales clave de las arquitecturas LLM en las pruebas de penetración

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de idiomas grandes (LLM) se utilizan cada vez más para automatizar o aumentar las pruebas de penetración, pero su efectividad y confiabilidad entre las fases de ataque siguen sin estar claras. Presentamos una evaluación integral de múltiples agentes basados ​​en LLM, desde diseños de un solo agente hasta modulares, en escenarios realistas de pruebas de penetración, midiendo el rendimiento empírico y los patrones de falla recurrente. También aislamos el impacto de cinco capacidades funcionales centrales a través de aumentos específicos: memoria de contexto global (GCM), mensajería entre agentes (IAM), invocación de contexto (CCI), planificación adaptativa (AP) y monitoreo en tiempo real (RTM). Estas intervenciones apoyan, respectivamente: (i) coherencia y retención de contexto, (ii) coordinación entre componentes y gestión del estado, (iii) uso de la herramienta y la ejecución selectiva de la herramienta, (iv) planificación estratégica de múltiples pasos, detección de errores y recuperación, y (v) capacidad de respuesta dinámica en tiempo real. Nuestros resultados muestran que, si bien algunas arquitecturas exhiben de forma nativa subconjuntos de estas propiedades, los aumentos específicos mejoran sustancialmente el rendimiento del agente modular, especialmente en tareas de pruebas de penetración compleja, múltiples y en tiempo real.

Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web