Synbench: un punto de referencia para generación de texto diferencialmente privada

Resumen: El soporte de decisiones basado en datos en dominios de alto riesgo como la atención médica y las finanzas enfrenta barreras significativas para el intercambio de datos debido a preocupaciones regulatorias, institucionales y de privacidad. Si bien los recientes modelos de IA generativos, como los modelos de idiomas grandes, han mostrado un rendimiento impresionante en las tareas de dominio abierto, su adopción en entornos sensibles sigue siendo limitada por comportamientos impredecibles e insuficientes conjuntos de datos de preservación de la privacidad para la evaluación comparativa. Los métodos de anonimización existentes a menudo son inadecuados, especialmente para el texto no estructurado, ya que la redacción y el enmascaramiento aún pueden permitir la reidentificación. La privacidad diferencial (DP) ofrece una alternativa de principios, que permite la generación de datos sintéticos con garantías de privacidad formales. En este trabajo, abordamos estos desafíos a través de tres contribuciones clave. Primero, presentamos un marco de evaluación integral con métricas estandarizadas de utilidad y fidelidad, que abarcan nueve conjuntos de datos seleccionados que capturan complejidades específicas de dominio, como jerga técnica, dependencias de contexto largo y estructuras de documentos especializadas. En segundo lugar, realizamos un estudio empírico a gran escala que comparó métodos de generación de texto DP de última generación y LLM de diferentes tamaños y diferentes estrategias de ajuste fino, lo que revela que la generación de datos sintéticos de alta calidad específicos de dominio bajo restricciones DP sigue siendo un desafío sin resolver, con el degradación del rendimiento a medida que aumenta la complejidad del dominio. En tercer lugar, desarrollamos una metodología de ataque de inferencia de membresía (MIA) adaptada para el texto sintético, proporcionando la primera evidencia empírica de que el uso de conjuntos de datos públicos, potencialmente presentes en los corpus de pre -entrenamiento, puede invalidar las garantías de privacidad reclamadas. Nuestros hallazgos subrayan la necesidad urgente de una rigurosa auditoría de la privacidad y resaltan las brechas persistentes entre el dominio abierto y las evaluaciones especializadas, informando el despliegue responsable de la IA generativa en entornos de alto riesgo sensibles a la privacidad.

Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Ming-Omni: un modelo multimodal unificado para la percepción y generación

Stand.tic/AIOti Informe de TWG IoT & Edge: Estándares del paisaje de Internet de las cosas v.2

El teorema de la neutralidad ontológica: por qué los sustratos ontológicos neutros deben ser precausales y prenormativos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido