Resumen: A medida que se desarrolla la era de los agentes autónomos que toman decisiones en nombre de los usuarios, asegurando la integridad contextual (IC), cuál es la información apropiada para compartir mientras realiza una determinada tarea, se convierte en una pregunta central para el campo. Posculamos que CI exige una forma de razonamiento donde el agente necesita razonar sobre el contexto en el que está operando. Para probar esto, primero solicitamos a los LLM a razonar explícitamente sobre CI al decidir qué información divulgar. Luego ampliamos este enfoque desarrollando un marco de aprendizaje de refuerzo (RL) que inculca aún más en los modelos el razonamiento necesario para lograr CI. Utilizando un conjunto de datos sintético, creado automáticamente, de solo $ sim700 $ ejemplos pero con diversos contextos y normas de divulgación de información, mostramos que nuestro método reduce sustancialmente la divulgación de información inapropiada mientras mantiene el rendimiento de las tareas en múltiples tamaños y familias de modelos. Es importante destacar que las mejoras se transfieren de este conjunto de datos sintético a puntos de referencia de CI establecidos, como privacyilens que tiene anotaciones humanas y evalúa la fuga de privacidad de los asistentes de IA en acciones y llamadas de herramientas.
Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original