CLÁUSULA Better Call: Un punto de referencia de discrepancia para auditar las capacidades de razonamiento legal de los LLM

Resumen: La rápida integración de grandes modelos de lenguaje (LLM) en trabajos legales de alto riesgo ha expuesto una brecha crítica: no existe ningún punto de referencia para probar sistemáticamente su confiabilidad frente a los defectos matizados, conflictivos y a menudo sutiles presentes en los contratos del mundo real. Para abordar esto, presentamos CLAUSE, un punto de referencia único en su tipo diseñado para evaluar la fragilidad del razonamiento legal de un LLM. Estudiamos las capacidades de los LLM para detectar y razonar sobre discrepancias detalladas mediante la producción de más de 7500 contratos perturbados del mundo real a partir de conjuntos de datos fundamentales como CUAD y ContractNLI. Nuestro novedoso proceso basado en personas genera 10 categorías de anomalías distintas, que luego se validan con los estatutos oficiales utilizando un sistema de generación aumentada de recuperación (RAG) para garantizar la fidelidad legal. Usamos CLÁUSULA para evaluar la capacidad de los principales LLM para detectar fallas legales incorporadas y explicar su importancia. Nuestro análisis muestra una debilidad clave: estos modelos a menudo pasan por alto errores sutiles y luchan aún más por justificarlos legalmente. Nuestro trabajo describe un camino para identificar y corregir tales fallas de razonamiento en la IA legal.

Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Fairy: Asistente móvil interactivo a tareas del mundo real a través de múltiples agentes basados ​​en LMM

A través de los ojos del juez: los rastros de pensamiento inferidos mejoran la confiabilidad de los evaluadores de LLM

GenAI-LA: Taller de análisis de aprendizaje e inteligencia artificial generativa (LAK 2026), del 27 de abril al 1 de mayo de 2026, Bergen, Noruega

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Fairy: Asistente móvil interactivo a tareas del mundo real a través de múltiples agentes basados en LMM