Resumen: Los agentes LLM se implementan cada vez más en entornos complejos de largo horizonte para resolver problemas desafiantes, pero esta expansión los expone a ataques de largo horizonte que explotan las interacciones usuario-agente-entorno de múltiples turnos para lograr objetivos inviables en entornos de un solo turno. Para medir las vulnerabilidades de los agentes a tales riesgos, presentamos AgentLAB, el primer punto de referencia dedicado a evaluar la susceptibilidad de los agentes LLM a ataques adaptativos a largo plazo. Actualmente, AgentLAB admite cinco tipos de ataques novedosos, incluido el secuestro de intenciones, el encadenamiento de herramientas, la inyección de tareas, la desviación de objetivos y el envenenamiento de la memoria, que abarcan 28 entornos agentes realistas y 644 casos de prueba de seguridad. Aprovechando AgentLAB, evaluamos agentes LLM representativos y descubrimos que siguen siendo muy susceptibles a ataques a largo plazo; Además, las defensas diseñadas para interacciones de un solo turno no logran mitigar de manera confiable las amenazas a largo plazo. Anticipamos que AgentLAB servirá como un punto de referencia valioso para rastrear el progreso en la protección de agentes LLM en entornos prácticos. El punto de referencia está disponible públicamente en esta URL https.
Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original
