Resumen: La ley ha sido durante mucho tiempo un dominio que ha sido popular en las aplicaciones de procesamiento del lenguaje natural (PNL). El razonamiento (ratiocinación y la capacidad de hacer conexiones con precedentes) es una parte central de la práctica de la ley en el mundo real. Sin embargo, aunque existen múltiples conjuntos de datos legales, ninguno se ha centrado específicamente en tareas de razonamiento. Nos centramos en un aspecto específico del panorama legal mediante la introducción de un punto de referencia de razonamiento de gobierno corporativo (cancillería) para probar la capacidad de un modelo para razonar sobre si las acciones propuestas por el ejecutivo/junta/accionista son consistentes con las cartas de gobierno corporativo. Este punto de referencia presenta una prueba de razonamiento de gobierno corporativo para los modelos de idiomas, modelado después de la ley de gobierno corporativo del mundo real. El punto de referencia consiste en una carta corporativa (un conjunto de convenios de gobierno) y una propuesta de acción ejecutiva. La tarea del modelo es de clasificación binaria: razón sobre si la acción es consistente con las reglas contenidas dentro de la carta. Creamos el punto de referencia que sigue a los principios establecidos de gobierno corporativo: 24 principios concretos de gobierno corporativo establecidos en y 79 charteres corporativas de la vida real seleccionados para representar a diversas industrias de un conjunto de datos totales de 10k Carteres corporativas de la vida real. Las evaluaciones sobre los modelos de razonamiento de última generación (SOTA) confirman la dificultad del punto de referencia, con modelos como Claude 3.7 Sonnet y GPT-4O logrando 64.5% y 75.2% de precisión respectivamente. Los agentes de razonamiento exhiben un rendimiento superior, con agentes basados en los marcos React y CodeAct que obtienen 76.1% y 78.1% respectivamente, lo que confirma aún más las capacidades de razonamiento legal avanzado requeridas para obtener un puntaje altamente en el punto de referencia. También realizamos un análisis de los tipos de preguntas sobre las que luchan los modelos de razonamiento actuales, revelando ideas sobre las capacidades de razonamiento legal de los modelos SOTA.
Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original