Resumen: La recuperación de información precisa (IR) es crítica en el dominio financiero, donde los inversores deben identificar información relevante de grandes colecciones de documentos. Los métodos IR tradicionales, ya sean escasos o densos, se quedan cortos en la precisión de la recuperación, ya que requiere no solo capturar la similitud semántica sino también realizar un razonamiento de grano fino sobre la estructura del documento y el conocimiento específico del dominio. Los avances recientes en los modelos de idiomas grandes (LLM) han abierto nuevas oportunidades de recuperación con razonamiento de varios pasos, donde el modelo clasifica los pasajes a través del razonamiento iterativo sobre qué información es más relevante para una consulta dada. Sin embargo, no existe un punto de referencia para evaluar tales capacidades en el dominio financiero. Para abordar esta brecha, presentamos a Finagentbench, el primer punto de referencia a gran escala para evaluar la recuperación con razonamiento de múltiples pasos en finanzas, una configuración de recuperación agente. El punto de referencia consta de 3.429 ejemplos anotados por expertos en empresas que cotizan en S&P-100 y evalúa si los agentes de LLM pueden (1) identificar el tipo de documento más relevante entre los candidatos, y (2) identificar el pasaje clave dentro del documento seleccionado. Nuestro marco de evaluación separa explícitamente estos dos pasos de razonamiento para abordar las limitaciones de contexto. Este diseño permite proporcionar una base cuantitativa para comprender el comportamiento LLM centrado en la recuperación en las finanzas. Evaluamos un conjunto de modelos de vanguardia y demostramos aún más cómo el ajuste fino dirigido puede mejorar significativamente el rendimiento de la recuperación de la agente. Nuestro punto de referencia proporciona una base para estudiar el comportamiento de LLM centrado en la recuperación en tareas complejas y específicas de dominio para las finanzas. Lanzaremos el conjunto de datos públicamente al aceptar el documento y planearemos expandir y compartir el conjunto de datos para el S&P 500 y más allá.
Publicado Originalme en export.arxiv.org El 20 de agosto de 2025.
Ver Fuente Original