Resumen: Grandes modelos de lenguaje (LLMS) han demostrado capacidades notables en diversas tareas de procesamiento del lenguaje natural, pero su tendencia a memorizar los datos de capacitación plantea riesgos de privacidad significativos, particularmente durante los procesos de ajuste fino. Este artículo presenta un análisis empírico integral de la memorización de datos en LLMS ajustados e introduce un nuevo marco de protección de la privacidad de múltiples capas. A través de experimentos controlados sobre las arquitecturas LLM modernas, incluidas GPT-2, PHI-3 y GEMMA-2, demostramos que el ajuste fino con datos confidenciales repetidos aumenta las tasas de fuga de privacidad de los niveles basales de 0-5% a 60-75%, lo que representa un aumento promedio de 64.2% en modelos probados. Proponemos y evaluamos rigurosamente cuatro métodos de protección de privacidad complementarios: deduplicación de datos semánticos, privacidad diferencial durante la generación, filtrado basado en entropía y filtrado de contenido basado en patrones. Nuestros resultados experimentales muestran que estas técnicas pueden reducir la fuga de datos al 0% mientras mantienen el 94.7% de la utilidad del modelo original.
Publicado Originalme en export.arxiv.org El 20 de agosto de 2025.
Ver Fuente Original