Resumen: A medida que se desarrolla la era de los agentes autónomos que toman decisiones en nombre de los usuarios, asegurando la integridad contextual (IC), cuál es la información apropiada para compartir mientras realiza una determinada tarea, se convierte en una pregunta central para el campo. Posculamos que CI exige una forma de razonamiento donde el agente necesita razonar sobre el contexto en el que está operando. Para probar esto, primero solicitamos a los LLM a razonar explícitamente sobre CI al decidir qué información divulgar. Luego ampliamos este enfoque desarrollando un marco de aprendizaje de refuerzo (RL) que inculca aún más en los modelos el razonamiento necesario para lograr CI. Utilizando un conjunto de datos sintético, creado automáticamente, de solo $ sim700 $ ejemplos pero con diversos contextos y normas de divulgación de información, mostramos que nuestro método reduce sustancialmente la divulgación de información inapropiada mientras mantiene el rendimiento de las tareas en múltiples tamaños y familias de modelos. Es importante destacar que las mejoras se transfieren de este conjunto de datos sintético a puntos de referencia de CI establecidos, como privacyilens que tiene anotaciones humanas y evalúa la fuga de privacidad de los asistentes de IA en acciones y llamadas de herramientas.

Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original

Integridad contextual en LLM a través del razonamiento y el aprendizaje de refuerzo

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Resolviendo el problema de vendedores de viajes múltiples Min-Max a través de la generación de rutas basada en el aprendizaje y división óptima

Micro-segmentación de Trust Trust, gestión de identidad, acceso de menor privilegio basado en roles y seguimiento de actividades

La gente usa la IA para “sentarse” con ellos mientras viajan en psicodélicos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido