Un estudio de evaluación de métodos híbridos para la detección de PII multilingüe

Resumen: La detección de información de identificación personal (PII) es fundamental para el cumplimiento de la privacidad, pero sigue siendo un desafío en idiomas de bajos recursos debido a la diversidad lingüística y los datos anotados limitados. Presentamos RECAP, un marco híbrido que combina expresiones regulares deterministas con modelos de lenguaje grande (LLM) conscientes del contexto para la detección de PII escalable en 13 configuraciones regionales de bajos recursos. El diseño modular de RECAP admite más de 300 tipos de entidades sin necesidad de volver a capacitarse, utilizando un proceso de refinamiento de tres fases para la desambiguación y el filtrado. Comparado con nervaluate, nuestro sistema supera a los modelos NER ajustados en un 82 % y a los LLM de disparo cero en un 17 % en puntuación F1 ponderada. Este trabajo ofrece una solución escalable y adaptable para la detección eficiente de PII en aplicaciones centradas en el cumplimiento.

Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Agentes autónomos de IA para la cobertura de opciones: mejorar la estabilidad financiera mediante el aprendizaje por refuerzo consciente del déficit

Seminario web de AIOTI que presenta el documento sobre aplicaciones de computación espacial e inmersiva industrial Edge IoT

Hacia un manejo eficiente de restricciones en solucionadores neuronales para problemas de enrutamiento

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido