Resumen: Los modelos de idiomas grandes (LLM) se utilizan cada vez más para automatizar o aumentar las pruebas de penetración, pero su efectividad y confiabilidad entre las fases de ataque siguen sin estar claras. Presentamos una evaluación integral de múltiples agentes basados en LLM, desde diseños de un solo agente hasta modulares, en escenarios realistas de pruebas de penetración, midiendo el rendimiento empírico y los patrones de falla recurrente. También aislamos el impacto de cinco capacidades funcionales centrales a través de aumentos específicos: memoria de contexto global (GCM), mensajería entre agentes (IAM), invocación de contexto (CCI), planificación adaptativa (AP) y monitoreo en tiempo real (RTM). Estas intervenciones apoyan, respectivamente: (i) coherencia y retención de contexto, (ii) coordinación entre componentes y gestión del estado, (iii) uso de la herramienta y la ejecución selectiva de la herramienta, (iv) planificación estratégica de múltiples pasos, detección de errores y recuperación, y (v) capacidad de respuesta dinámica en tiempo real. Nuestros resultados muestran que, si bien algunas arquitecturas exhiben de forma nativa subconjuntos de estas propiedades, los aumentos específicos mejoran sustancialmente el rendimiento del agente modular, especialmente en tareas de pruebas de penetración compleja, múltiples y en tiempo real.
Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original
