Génesis: estrategias de ataque en evolución para el agente web LLM Red-Teaming

Resumen: A medida que los agentes de modelos de lenguaje grande (LLM) automatizan cada vez más tareas web complejas, aumentan la productividad y, al mismo tiempo, introducen nuevos riesgos de seguridad. Sin embargo, los estudios relevantes sobre ataques de agentes web siguen siendo limitados. Los enfoques de equipos rojos existentes se basan principalmente en estrategias de ataque diseñadas manualmente o en modelos estáticos entrenados fuera de línea. Estos métodos no logran capturar los patrones de comportamiento subyacentes de los agentes web, lo que dificulta su generalización en diversos entornos. En los ataques de agentes web, el éxito requiere el descubrimiento y la evolución continuos de las estrategias de ataque. Con este fin, proponemos Génesis, un novedoso marco agente compuesto por tres módulos: Atacante, Anotador y Estratega. El atacante genera inyecciones adversas integrando el algoritmo genético con una representación de estrategia híbrida. El Scorer evalúa las respuestas del agente web objetivo para proporcionar comentarios. El estratega descubre dinámicamente estrategias efectivas a partir de registros de interacción y las compila en una biblioteca de estrategias en continuo crecimiento, que luego se vuelve a implementar para mejorar la efectividad del atacante. Amplios experimentos en varias tareas web muestran que nuestro marco descubre estrategias novedosas y supera consistentemente las bases de ataque existentes.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Implementación de la representación del conocimiento y el razonamiento con diseño orientado a objetos

Ingeniería de funciones automatizada guiada causalmente con aprendizaje por refuerzo de múltiples agentes

Hacia el monitoreo inteligente del desarrollo de parques urbanos: agentes LLM para la fusión y el análisis de información multimodal

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido