FATHOMS-RAG: Un marco para la evaluación del pensamiento y la observación en sistemas multimodales que utilizan generación aumentada de recuperación

Resumen: La generación de recuperación aumentada (RAG) ha surgido como un paradigma prometedor para mejorar la precisión fáctica en modelos de lenguaje grandes (LLM). Presentamos un punto de referencia diseñado para evaluar los canales RAG en su conjunto, evaluando la capacidad de un canal para ingerir, recuperar y razonar sobre varias modalidades de información, diferenciándolo de los puntos de referencia existentes que se centran en aspectos particulares como la recuperación. Presentamos (1) un pequeño conjunto de datos creado por humanos de 93 preguntas diseñadas para evaluar la capacidad de un canal para ingerir datos textuales, tablas, imágenes y datos distribuidos en estas modalidades en uno o más documentos; (2) una métrica de recuperación a nivel de frase para comprobar la corrección; (3) un clasificador de incrustación del vecino más cercano para identificar posibles alucinaciones en las tuberías; (4) una evaluación comparativa de 2 oleoductos construidos con mecanismos de recuperación de código abierto y 4 modelos de cimentación de código cerrado; y (5) una evaluación humana de terceros de la alineación de nuestras métricas de corrección y alucinaciones. Descubrimos que los canales de código cerrado superan significativamente a los de código abierto en métricas de corrección y alucinación, con brechas de rendimiento más amplias en preguntas que se basan en información multimodal y entre documentos. La evaluación humana de nuestras métricas mostró un acuerdo promedio de 4,62 para la corrección y 4,53 para la detección de alucinaciones en una escala Likert del 1 al 5 (5 indica “muy de acuerdo”).

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La variación es la clave: un marco basado en variaciones para la detección de texto generado por LLM

Desde modos propios a pruebas: integración de operadores espectrales gráficos con razonamiento simbólico interpretable

La descarga: Sycophantic LLMS y el índice de bombo de IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido