Evaluar y mitigar los riesgos de memorización de datos en modelos de idiomas grandes sintonizados

Resumen: Grandes modelos de lenguaje (LLMS) han demostrado capacidades notables en diversas tareas de procesamiento del lenguaje natural, pero su tendencia a memorizar los datos de capacitación plantea riesgos de privacidad significativos, particularmente durante los procesos de ajuste fino. Este artículo presenta un análisis empírico integral de la memorización de datos en LLMS ajustados e introduce un nuevo marco de protección de la privacidad de múltiples capas. A través de experimentos controlados sobre las arquitecturas LLM modernas, incluidas GPT-2, PHI-3 y GEMMA-2, demostramos que el ajuste fino con datos confidenciales repetidos aumenta las tasas de fuga de privacidad de los niveles basales de 0-5% a 60-75%, lo que representa un aumento promedio de 64.2% en modelos probados. Proponemos y evaluamos rigurosamente cuatro métodos de protección de privacidad complementarios: deduplicación de datos semánticos, privacidad diferencial durante la generación, filtrado basado en entropía y filtrado de contenido basado en patrones. Nuestros resultados experimentales muestran que estas técnicas pueden reducir la fuga de datos al 0% mientras mantienen el 94.7% de la utilidad del modelo original.

Publicado Originalme en export.arxiv.org El 20 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MCU: Mejora de la conectividad del modo de desaprendizaje de la máquina

FINSTAT2SQL: una tubería Text2SQL para análisis de estados financieros

Modelos causales de topos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido