Resumen: a medida que los agentes autónomos impulsados por modelos de lenguaje grande (LLM) continúan demostrando potencial en varias tareas de asistencia, asegurar que su comportamiento seguro y confiable sea crucial para prevenir las consecuencias no deseadas. En este trabajo, presentamos CIP, una técnica novedosa que aprovecha los diagramas de influencia causal (CID) para identificar y mitigar los riesgos que surgen de la toma de decisiones de los agentes. Los CID proporcionan una representación estructurada de las relaciones de causa y efecto, lo que permite a los agentes anticipar resultados dañinos y tomar decisiones más seguras. Nuestro enfoque consta de tres pasos clave: (1) inicializar un CID basado en las especificaciones de la tarea para describir el proceso de toma de decisiones, (2) interacciones de agente guía con el entorno utilizando el CID y (3) refinar iterativamente el CID basado en comportamientos y resultados observados. Los resultados experimentales demuestran que nuestro método mejora efectivamente la seguridad tanto en la ejecución del código como en las tareas de control de dispositivos móviles.
Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original