Resumen: Los sistemas multiagente (MAS) basados en modelos de lenguaje grande han demostrado notables capacidades de razonamiento colaborativo, pero introducen nuevas superficies de ataque, como el agente durmiente, que se comporta de manera benigna durante la operación de rutina y acumula confianza gradualmente, revelando solo comportamientos maliciosos cuando se cumplen condiciones o desencadenantes específicos. Los trabajos de defensa existentes se centran principalmente en la optimización de gráficos estáticos o la gestión jerárquica de datos, y a menudo no logran adaptarse a las estrategias adversas en evolución o sufren altas tasas de falsos positivos (FPR) debido a políticas de bloqueo rígidas. Para abordar esto, proponemos DynaTrust, un novedoso método de defensa contra agentes durmientes. DynaTrust modela MAS como un gráfico de confianza dinámico~(DTG) y trata la confianza como un proceso continuo y en evolución en lugar de un atributo estático. Actualiza dinámicamente la confianza de cada agente en función de sus comportamientos históricos y la confianza de agentes expertos seleccionados. En lugar de simplemente bloquear, DynaTrust reestructura de forma autónoma el gráfico para aislar a los agentes comprometidos y restaurar la conectividad de las tareas para garantizar la usabilidad de MAS. Para evaluar la eficacia de DynaTrust, lo evaluamos en puntos de referencia mixtos derivados de AdvBench y HumanEval. Los resultados demuestran que DynaTrust supera al método de última generación AgentShield al aumentar la tasa de éxito de la defensa en un 41,7 %, logrando tasas superiores al 86 % en condiciones adversas. Además, equilibra eficazmente la seguridad con la utilidad al reducir significativamente el FPR, lo que garantiza operaciones ininterrumpidas del sistema mediante la adaptación de gráficos.
Publicado originalmente en export.arxiv.org el 17 de marzo de 2026.
Ver fuente original
