Resumen: Un sistema multiagente (MAS) impulsado por grandes modelos de lenguaje (LLM) puede automatizar tareas tediosas del usuario, como la programación de reuniones, que requieren colaboración entre agentes. Los LLM habilitan protocolos matizados que tienen en cuenta datos privados no estructurados, limitaciones y preferencias del usuario. Sin embargo, este diseño introduce nuevos riesgos, incluida la desalineación y los ataques de partes malintencionadas que comprometen a los agentes o roban datos de los usuarios. En este artículo, proponemos el marco Terrarium para un estudio detallado sobre seguridad, privacidad y protección en MAS basado en LLM. Reutilizamos el diseño de la pizarra, un enfoque inicial en sistemas multiagente, para crear un banco de pruebas modular y configurable para la colaboración multiagente. Identificamos vectores de ataque clave, como desalineación, agentes maliciosos, comunicaciones comprometidas y envenenamiento de datos. Implementamos tres escenarios MAS colaborativos con cuatro ataques representativos para demostrar la flexibilidad del marco. Al proporcionar herramientas para crear prototipos, evaluar e iterar rápidamente defensas y diseños, Terrarium tiene como objetivo acelerar el progreso hacia sistemas multiagente confiables.
Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original
