Resumen: La aparición de agentes del Modelo de Lenguaje Gran Autónomo (LLM) capaces de usar herramientas ha introducido nuevos riesgos de seguridad que van más allá del uso indebido de conversación tradicional. Estos agentes, facultados para ejecutar funciones externas, son vulnerables tanto a las amenazas iniciadas por el usuario (por ejemplo, indicaciones adversas) como a amenazas iniciadas por herramientas (por ejemplo, salidas maliciosas de herramientas comprometidas). En este documento, proponemos el primer marco unificado de alineación de seguridad para los agentes que usan herramientas, lo que permite a los modelos manejar ambos canales de amenaza a través del razonamiento estructurado y el aprendizaje de refuerzo de arena. Presentamos una taxonomía tri-modal, que incluye benigna, maliciosa y sensible tanto para las indicaciones del usuario como para las respuestas de herramientas, y definimos un modelo de decisión basado en políticas. Nuestro marco emplea un entorno de sandbox diseñado a medida que simula la ejecución de la herramienta del mundo real y permite la configuración de recompensa de grano fino. A través de evaluaciones extensas sobre puntos de referencia público y autovolerado, incluidos Agent SafetyBench, Injecagent y BFCL, demostramos que nuestros agentes alineados con seguridad mejoran significativamente la resistencia a las amenazas de seguridad al tiempo que preservan fuertes utilidad en tareas benignas. Nuestros resultados muestran que la seguridad y la efectividad pueden optimizarse conjuntamente, estableciendo las bases para el despliegue confiable de agentes autónomos de LLM.
Publicado Originalme en export.arxiv.org El 13 de julio de 2025.
Ver Fuente Original