Modelos de lenguaje local para la anonimización adaptativa consciente del contexto de texto confidencial

Resumen: La investigación cualitativa a menudo contiene detalles personales, contextuales y organizacionales que plantean riesgos para la privacidad si no se manejan adecuadamente. La anonimización manual requiere mucho tiempo, es inconsistente y con frecuencia omite identificadores críticos. Las herramientas automatizadas existentes tienden a depender de la coincidencia de patrones o reglas fijas, que no logran capturar el contexto y pueden alterar el significado de los datos. Este estudio utiliza LLM locales para construir un proceso de anonimización confiable, repetible y consciente del contexto para detectar y anonimizar datos confidenciales en transcripciones cualitativas. Presentamos un marco estructurado para el anonimizador adaptativo (SFAA) que incluye tres pasos: detección, clasificación y anonimización adaptativa. La SFAA incorpora cuatro estrategias de anonimización: sustitución basada en reglas, reescritura contextual, generalización y supresión. Estas estrategias se aplican en función del tipo de identificador y el nivel de riesgo. Los identificadores manejados por la SFAA se guían por los principales estándares internacionales de privacidad y ética de la investigación, incluidas las directrices GDPR, HIPAA y la OCDE. Este estudio siguió una evaluación de método dual que combinó el procesamiento manual y asistido por LLM. Se utilizaron dos estudios de caso para respaldar la evaluación. La primera incluye 82 entrevistas presenciales sobre gamificación en las organizaciones. El segundo implica 93 entrevistas realizadas por máquinas que utilizan un entrevistador con tecnología de inteligencia artificial para evaluar el conocimiento del LLM y la privacidad en el lugar de trabajo. Se utilizaron dos modelos locales, LLaMA y Phi, para evaluar el desempeño del marco propuesto. Los resultados indican que los LLM encontraron datos más confidenciales que un revisor humano. Phi superó a LLaMA en la búsqueda de datos confidenciales, pero cometió un poco más de errores. Phi pudo encontrar más del 91% de los datos confidenciales y el 94,8% mantuvo el mismo sentimiento que el texto original, lo que significa que fue muy preciso y, por lo tanto, no afecta el análisis de los datos cualitativos.

Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El cripto multimillonario Brian Armstrong está listo para invertir en CRISPR Baby Tech

Arquitecturas de memoria continua para agentes LLM de largo horizonte

Hacia la persuasión estratégica con modelos de idiomas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido