Desde las capacidades hasta el rendimiento: evaluar las propiedades funcionales clave de las arquitecturas LLM en las pruebas de penetración

Resumen: Los modelos de idiomas grandes (LLM) se utilizan cada vez más para automatizar o aumentar las pruebas de penetración, pero su efectividad y confiabilidad entre las fases de ataque siguen sin estar claras. Presentamos una evaluación integral de múltiples agentes basados en LLM, desde diseños de un solo agente hasta modulares, en escenarios realistas de pruebas de penetración, midiendo el rendimiento empírico y los patrones de falla recurrente. También aislamos el impacto de cinco capacidades funcionales centrales a través de aumentos específicos: memoria de contexto global (GCM), mensajería entre agentes (IAM), invocación de contexto (CCI), planificación adaptativa (AP) y monitoreo en tiempo real (RTM). Estas intervenciones apoyan, respectivamente: (i) coherencia y retención de contexto, (ii) coordinación entre componentes y gestión del estado, (iii) uso de la herramienta y la ejecución selectiva de la herramienta, (iv) planificación estratégica de múltiples pasos, detección de errores y recuperación, y (v) capacidad de respuesta dinámica en tiempo real. Nuestros resultados muestran que, si bien algunas arquitecturas exhiben de forma nativa subconjuntos de estas propiedades, los aumentos específicos mejoran sustancialmente el rendimiento del agente modular, especialmente en tareas de pruebas de penetración compleja, múltiples y en tiempo real.

Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Metacognición de agente: Diseño de un agente de bajo código “consciente de sí mismo” para la predicción de falla y la transferencia humana

Ver, pensar, ACT: Enseñar agentes multimodales para interactuar de manera efectiva con la GUI identificando a Togarles

Progreso social y tecnológico como coser una edredón cada vez mayor, siempre cambiante, irregular y policromático

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido