AgentLAB: Evaluación comparativa de los agentes LLM contra ataques a largo plazo

Resumen: Los agentes LLM se implementan cada vez más en entornos complejos de largo horizonte para resolver problemas desafiantes, pero esta expansión los expone a ataques de largo horizonte que explotan las interacciones usuario-agente-entorno de múltiples turnos para lograr objetivos inviables en entornos de un solo turno. Para medir las vulnerabilidades de los agentes a tales riesgos, presentamos AgentLAB, el primer punto de referencia dedicado a evaluar la susceptibilidad de los agentes LLM a ataques adaptativos a largo plazo. Actualmente, AgentLAB admite cinco tipos de ataques novedosos, incluido el secuestro de intenciones, el encadenamiento de herramientas, la inyección de tareas, la desviación de objetivos y el envenenamiento de la memoria, que abarcan 28 entornos agentes realistas y 644 casos de prueba de seguridad. Aprovechando AgentLAB, evaluamos agentes LLM representativos y descubrimos que siguen siendo muy susceptibles a ataques a largo plazo; Además, las defensas diseñadas para interacciones de un solo turno no logran mitigar de manera confiable las amenazas a largo plazo. Anticipamos que AgentLAB servirá como un punto de referencia valioso para rastrear el progreso en la protección de agentes LLM en entornos prácticos. El punto de referencia está disponible públicamente en esta URL https.

Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Por qué la ciencia básica merece nuestra inversión más audaz

Mejora de la vigilancia de seguridad de las vacunas: Extracción de menciones de vacuna de las notas de triaje del departamento de emergencias utilizando modelos de idiomas grandes sintonizados

Hacia un manejo eficiente de restricciones en solucionadores neuronales para problemas de enrutamiento

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido