Mejora de la seguridad del agente de LLM mediante influencia causal de impulso

Resumen: a medida que los agentes autónomos impulsados por modelos de lenguaje grande (LLM) continúan demostrando potencial en varias tareas de asistencia, asegurar que su comportamiento seguro y confiable sea crucial para prevenir las consecuencias no deseadas. En este trabajo, presentamos CIP, una técnica novedosa que aprovecha los diagramas de influencia causal (CID) para identificar y mitigar los riesgos que surgen de la toma de decisiones de los agentes. Los CID proporcionan una representación estructurada de las relaciones de causa y efecto, lo que permite a los agentes anticipar resultados dañinos y tomar decisiones más seguras. Nuestro enfoque consta de tres pasos clave: (1) inicializar un CID basado en las especificaciones de la tarea para describir el proceso de toma de decisiones, (2) interacciones de agente guía con el entorno utilizando el CID y (3) refinar iterativamente el CID basado en comportamientos y resultados observados. Los resultados experimentales demuestran que nuestro método mejora efectivamente la seguridad tanto en la ejecución del código como en las tareas de control de dispositivos móviles.

Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

VERITAS: Aprovechando Vision Priors y Expert Fusion para mejorar los datos multimodales

EmboMatrix: un campo de entrenamiento escalable para la toma de decisiones incorporada

TinyML de agente para la entrega de intención en redes inalámbricas 6G

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido