En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->MPCI-Bench: un punto de referencia para la evaluación de integridad contextual multimodal por pares de agentes de modelos de lenguaje

MPCI-Bench: un punto de referencia para la evaluación de integridad contextual multimodal por pares de agentes de modelos de lenguaje

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:A medida que los agentes modelo de lenguaje evolucionan de chatbots pasivos a asistentes proactivos que manejan datos personales, evaluar su adherencia a las normas sociales se vuelve cada vez más crítico, a menudo a través de la lente de la integridad contextual (CI). Sin embargo, los puntos de referencia de CI existentes se centran en gran medida en el texto y enfatizan principalmente escenarios de rechazo negativo, pasando por alto los riesgos de privacidad multimodal y el equilibrio fundamental entre privacidad y utilidad. En este artículo, presentamos MPCI-Bench, el primer punto de referencia de integridad contextual multimodal por pares para evaluar el comportamiento de privacidad en entornos agentes. MPCI-Bench consta de instancias positivas y negativas emparejadas derivadas de la misma fuente visual y instanciadas en tres niveles: juicios de semillas normativos, razonamiento de historias rico en contexto y seguimientos de acciones de agentes ejecutables. La calidad de los datos se garantiza a través de un proceso de refinamiento iterativo de tres principios. Las evaluaciones de modelos multimodales de última generación revelan fallas sistemáticas para equilibrar la privacidad y la utilidad y una brecha de fuga de modalidad pronunciada, donde la información visual sensible se filtra con más frecuencia que la información textual. Abriremos MPCI-Bench de código abierto para facilitar futuras investigaciones sobre CI agente.

Publicado originalmente en export.arxiv.org el 13 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web