Resumen: Los agentes de codificación basados en LLM se están implementando rápidamente en el desarrollo de software, sin embargo, sus implicaciones de seguridad siguen siendo poco conocidas. Estos agentes, aunque son capaces de acelerar el desarrollo de software, pueden introducir inadvertidamente prácticas inseguras. Realizamos la primera evaluación de seguridad sistemática de agentes de codificación autónomos, analizando más de 12,000 acciones en cinco modelos de última generación (GPT-4O, GPT-4.1, Variants Claude) en 93 tareas de configuración de software del mundo real. Nuestros hallazgos revelan preocupaciones de seguridad significativas: el 21% de las trayectorias de los agentes contenían acciones inseguras, con modelos que muestran una variación sustancial en el comportamiento de seguridad. Desarrollamos un sistema de detección de alta precisión que identificó cuatro categorías principales de vulnerabilidad, siendo la exposición a la información (CWE-200) la más frecuente. También evaluamos las estrategias de mitigación, incluidos los mecanismos de retroalimentación y los recordatorios de seguridad con diversa efectividad entre los modelos. GPT-4.1 demostró una conciencia de seguridad excepcional con un éxito de mitigación del 96.8%. Nuestro trabajo proporciona el primer marco integral para evaluar la seguridad del agente de codificación y destaca la necesidad de un diseño de seguridad de los agentes de codificación basados en LLM de próxima generación.
Publicado Originalme en export.arxiv.org El 14 de julio de 2025.
Ver Fuente Original