En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->FinRule-Bench: un punto de referencia para el razonamiento conjunto sobre tablas y principios financieros

FinRule-Bench: un punto de referencia para el razonamiento conjunto sobre tablas y principios financieros

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLM) se aplican cada vez más al análisis financiero, sin embargo, su capacidad para auditar estados financieros estructurados bajo principios contables explícitos sigue siendo poco explorada. Los puntos de referencia existentes evalúan principalmente la respuesta a preguntas, el razonamiento numérico o la detección de anomalías en datos sintéticamente corruptos, lo que deja poco claro si los modelos pueden verificar o localizar de manera confiable el cumplimiento de las reglas en los estados financieros correctos. Presentamos FinRule-Bench, un punto de referencia para evaluar la integridad del diagnóstico en el razonamiento financiero basado en reglas en comparación con tablas financieras del mundo real. FinRule-Bench combina estados financieros reales con principios contables explícitos seleccionados por humanos y abarca cuatro tipos de estados canónicos: balances, estados de flujo de efectivo, estados de ingresos y estados de patrimonio. El punto de referencia define tres tareas de auditoría que requieren capacidades de razonamiento cada vez más sólidas: (i) verificación de reglas, que prueba el cumplimiento de un principio único; (ii) identificación de reglas, que requiere seleccionar el principio violado de un conjunto de reglas proporcionado; y (iii) diagnóstico conjunto de reglas, que requiere detectar y localizar múltiples violaciones simultáneas a nivel de registro. Evaluamos los LLM bajo indicaciones de cero y pocos intentos, e introducimos un protocolo de razonamiento causal-contrafactual que refuerza la coherencia entre decisiones, explicaciones y juicios contrafactuales. En todas las tareas y tipos de declaraciones, encontramos que, si bien los modelos funcionan bien en la verificación de reglas aisladas, el rendimiento se degrada drásticamente en la discriminación de reglas y el diagnóstico de múltiples infracciones. FinRule-Bench proporciona un banco de pruebas reproducible y basado en principios para estudiar el razonamiento regido por reglas, la cobertura de diagnóstico y los modos de falla de los LLM en análisis financieros de alto riesgo.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web