DynaTrust: defensa de sistemas multiagente contra agentes durmientes mediante gráficos de confianza dinámicos

Resumen: Los sistemas multiagente (MAS) basados en modelos de lenguaje grande han demostrado notables capacidades de razonamiento colaborativo, pero introducen nuevas superficies de ataque, como el agente durmiente, que se comporta de manera benigna durante la operación de rutina y acumula confianza gradualmente, revelando solo comportamientos maliciosos cuando se cumplen condiciones o desencadenantes específicos. Los trabajos de defensa existentes se centran principalmente en la optimización de gráficos estáticos o la gestión jerárquica de datos, y a menudo no logran adaptarse a las estrategias adversas en evolución o sufren altas tasas de falsos positivos (FPR) debido a políticas de bloqueo rígidas. Para abordar esto, proponemos DynaTrust, un novedoso método de defensa contra agentes durmientes. DynaTrust modela MAS como un gráfico de confianza dinámico~(DTG) y trata la confianza como un proceso continuo y en evolución en lugar de un atributo estático. Actualiza dinámicamente la confianza de cada agente en función de sus comportamientos históricos y la confianza de agentes expertos seleccionados. En lugar de simplemente bloquear, DynaTrust reestructura de forma autónoma el gráfico para aislar a los agentes comprometidos y restaurar la conectividad de las tareas para garantizar la usabilidad de MAS. Para evaluar la eficacia de DynaTrust, lo evaluamos en puntos de referencia mixtos derivados de AdvBench y HumanEval. Los resultados demuestran que DynaTrust supera al método de última generación AgentShield al aumentar la tasa de éxito de la defensa en un 41,7 %, logrando tasas superiores al 86 % en condiciones adversas. Además, equilibra eficazmente la seguridad con la utilidad al reducir significativamente el FPR, lo que garantiza operaciones ininterrumpidas del sistema mediante la adaptación de gráficos.

Publicado originalmente en export.arxiv.org el 17 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Internet estratosférico finalmente podría comenzar a despegar este año

¿El razonamiento matemático mejora las capacidades generales de LLM? Comprender la transferibilidad del razonamiento de LLM

JEDA: Búsqueda de pedidos clínicos sin consultas desde Ambient Dialogues

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido