Resumen:A medida que los agentes modelo de lenguaje evolucionan de chatbots pasivos a asistentes proactivos que manejan datos personales, evaluar su adherencia a las normas sociales se vuelve cada vez más crítico, a menudo a través de la lente de la integridad contextual (CI). Sin embargo, los puntos de referencia de CI existentes se centran en gran medida en el texto y enfatizan principalmente escenarios de rechazo negativo, pasando por alto los riesgos de privacidad multimodal y el equilibrio fundamental entre privacidad y utilidad. En este artículo, presentamos MPCI-Bench, el primer punto de referencia de integridad contextual multimodal por pares para evaluar el comportamiento de privacidad en entornos agentes. MPCI-Bench consta de instancias positivas y negativas emparejadas derivadas de la misma fuente visual y instanciadas en tres niveles: juicios de semillas normativos, razonamiento de historias rico en contexto y seguimientos de acciones de agentes ejecutables. La calidad de los datos se garantiza a través de un proceso de refinamiento iterativo de tres principios. Las evaluaciones de modelos multimodales de última generación revelan fallas sistemáticas para equilibrar la privacidad y la utilidad y una brecha de fuga de modalidad pronunciada, donde la información visual sensible se filtra con más frecuencia que la información textual. Abriremos MPCI-Bench de código abierto para facilitar futuras investigaciones sobre CI agente.
Publicado originalmente en export.arxiv.org el 13 de enero de 2026.
Ver fuente original
