Resumen: La detección de información de identificación personal (PII) es fundamental para el cumplimiento de la privacidad, pero sigue siendo un desafío en idiomas de bajos recursos debido a la diversidad lingüística y los datos anotados limitados. Presentamos RECAP, un marco híbrido que combina expresiones regulares deterministas con modelos de lenguaje grande (LLM) conscientes del contexto para la detección de PII escalable en 13 configuraciones regionales de bajos recursos. El diseño modular de RECAP admite más de 300 tipos de entidades sin necesidad de volver a capacitarse, utilizando un proceso de refinamiento de tres fases para la desambiguación y el filtrado. Comparado con nervaluate, nuestro sistema supera a los modelos NER ajustados en un 82 % y a los LLM de disparo cero en un 17 % en puntuación F1 ponderada. Este trabajo ofrece una solución escalable y adaptable para la detección eficiente de PII en aplicaciones centradas en el cumplimiento.
Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original
