Resumen: A medida que las empresas integran cada vez más modelos de lenguaje de gran nube (LLM) como ChatGPT y Gemini en sus flujos de trabajo de documentos legales, protegiendo la información contractual confidencial, incluida la información de identificación personal (PII) y las cláusulas comercialmente confidenciales, ha surgido como un desafío crítico. En este trabajo, proponemos CON-QA, un marco híbrido de preservación de la privacidad diseñado específicamente para la respuesta segura de preguntas sobre contratos empresariales, combinando efectivamente las LLM locales y conhoradas en la nube. The CON-QA framework operates through three stages: (i) semantic query decomposition and query-aware document chunk retrieval using a locally deployed LLM analysis, (ii) anonymization of detected sensitive entities via a structured one-to-many mapping scheme, ensuring semantic coherence while preventing cross-session entity inference attacks, and (iii) anonymized response generation by a cloud-based LLM, with accurate Reconstrucción de la respuesta original localmente utilizando una asignación inversa de muchos a uno consistente en la sesión. Para evaluar rigurosamente CON-QA, presentamos CUAD-QA, un corpus de 85k pares de preguntas y respuestas generadas por 510 documentos del contrato de Cuad del mundo real, que abarca consultas simples, complejas y de estilo de resumen. Las evaluaciones empíricas, complementadas por evaluaciones humanas detalladas, confirman que CON-QA mantiene efectivamente la privacidad y la utilidad, conserva la calidad de las respuestas, mantiene la fidelidad a la semántica legal de la cláusula y mitiga significativamente los riesgos de privacidad, demostrando su idoneidad práctica para los documentos contratados seguros de nivel empresarial.
Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original