FinRule-Bench: un punto de referencia para el razonamiento conjunto sobre tablas y principios financieros

Resumen: Los modelos de lenguaje grande (LLM) se aplican cada vez más al análisis financiero, sin embargo, su capacidad para auditar estados financieros estructurados bajo principios contables explícitos sigue siendo poco explorada. Los puntos de referencia existentes evalúan principalmente la respuesta a preguntas, el razonamiento numérico o la detección de anomalías en datos sintéticamente corruptos, lo que deja poco claro si los modelos pueden verificar o localizar de manera confiable el cumplimiento de las reglas en los estados financieros correctos. Presentamos FinRule-Bench, un punto de referencia para evaluar la integridad del diagnóstico en el razonamiento financiero basado en reglas en comparación con tablas financieras del mundo real. FinRule-Bench combina estados financieros reales con principios contables explícitos seleccionados por humanos y abarca cuatro tipos de estados canónicos: balances, estados de flujo de efectivo, estados de ingresos y estados de patrimonio. El punto de referencia define tres tareas de auditoría que requieren capacidades de razonamiento cada vez más sólidas: (i) verificación de reglas, que prueba el cumplimiento de un principio único; (ii) identificación de reglas, que requiere seleccionar el principio violado de un conjunto de reglas proporcionado; y (iii) diagnóstico conjunto de reglas, que requiere detectar y localizar múltiples violaciones simultáneas a nivel de registro. Evaluamos los LLM bajo indicaciones de cero y pocos intentos, e introducimos un protocolo de razonamiento causal-contrafactual que refuerza la coherencia entre decisiones, explicaciones y juicios contrafactuales. En todas las tareas y tipos de declaraciones, encontramos que, si bien los modelos funcionan bien en la verificación de reglas aisladas, el rendimiento se degrada drásticamente en la discriminación de reglas y el diagnóstico de múltiples infracciones. FinRule-Bench proporciona un banco de pruebas reproducible y basado en principios para estudiar el razonamiento regido por reglas, la cobertura de diagnóstico y los modos de falla de los LLM en análisis financieros de alto riesgo.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cosmolab ofrece un enfoque para desarrollar nuestro conocimiento fundamental y nuestra conciencia de la realidad y la complejidad de nuestras relaciones con China.

Un enfoque de algoritmos múltiples para equilibrar la carga de trabajo de recursos humanos operativos en un sistema de entrega urbano de última milla

Fab City Roundtable: métricas e innovación de código abierto para impacto

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido