Resumen: La rápida integración de grandes modelos de lenguaje (LLM) en trabajos legales de alto riesgo ha expuesto una brecha crítica: no existe ningún punto de referencia para probar sistemáticamente su confiabilidad frente a los defectos matizados, conflictivos y a menudo sutiles presentes en los contratos del mundo real. Para abordar esto, presentamos CLAUSE, un punto de referencia único en su tipo diseñado para evaluar la fragilidad del razonamiento legal de un LLM. Estudiamos las capacidades de los LLM para detectar y razonar sobre discrepancias detalladas mediante la producción de más de 7500 contratos perturbados del mundo real a partir de conjuntos de datos fundamentales como CUAD y ContractNLI. Nuestro novedoso proceso basado en personas genera 10 categorías de anomalías distintas, que luego se validan con los estatutos oficiales utilizando un sistema de generación aumentada de recuperación (RAG) para garantizar la fidelidad legal. Usamos CLÁUSULA para evaluar la capacidad de los principales LLM para detectar fallas legales incorporadas y explicar su importancia. Nuestro análisis muestra una debilidad clave: estos modelos a menudo pasan por alto errores sutiles y luchan aún más por justificarlos legalmente. Nuestro trabajo describe un camino para identificar y corregir tales fallas de razonamiento en la IA legal.
Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original
