Resumen: El surgimiento de los sistemas de agentes múltiples (MAS) basados en el modelo de lenguaje grande (LLM) introduce nuevos desafíos de seguridad y confiabilidad. Si bien estos sistemas muestran una gran promesa en la descomposición y la coordinación de tareas complejas, también enfrentan riesgos multifacéticos a través de la manipulación rápida, el uso de herramientas inseguras y la concentración de agentes emergentes. Los mecanismos de barandilla existentes ofrecen solo protección parcial, principalmente en el nivel de entrada-salida, y se quedan cortos para abordar fallas sistémicas o múltiples en MAS. En este trabajo, presentamos un marco de detección de anomalías a nivel de sistema adaptado para MAS, integrando el modelado estructural con supervisión de comportamiento en tiempo de ejecución. Nuestro enfoque consta de dos componentes. Primero, proponemos un marco basado en gráficos que modela las interacciones del agente como gráficos de ejecución dinámica, lo que permite la detección de anomalías semánticas en los niveles de nodo, borde y ruta. En segundo lugar, presentamos un Sentinelagent enchufable, un agente de supervisión con alimentación de LLM que observa, analiza e interviene en la ejecución de MAS basada en políticas de seguridad y razonamiento contextual. Al unir la lógica de detección abstracta con la aplicación procesable, nuestro método detecta no solo fallas de un solo punto e inyecciones rápidas, sino también colusión de agentes múltiples y rutas de exploit latentes. Validamos nuestro marco a través de dos estudios de casos, incluido un asistente de correo electrónico y el sistema Magentic-One de Microsoft, demostrando su capacidad para detectar riesgos encubiertos y proporcionar una atribución explicable de causa raíz. Nuestro trabajo sienta las bases para ecosistemas de IA más confiables, monitorables y seguros basados en agentes.
Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original