En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->FATHOMS-RAG: Un marco para la evaluación del pensamiento y la observación en sistemas multimodales que utilizan generación aumentada de recuperación

FATHOMS-RAG: Un marco para la evaluación del pensamiento y la observación en sistemas multimodales que utilizan generación aumentada de recuperación

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La generación de recuperación aumentada (RAG) ha surgido como un paradigma prometedor para mejorar la precisión fáctica en modelos de lenguaje grandes (LLM). Presentamos un punto de referencia diseñado para evaluar los canales RAG en su conjunto, evaluando la capacidad de un canal para ingerir, recuperar y razonar sobre varias modalidades de información, diferenciándolo de los puntos de referencia existentes que se centran en aspectos particulares como la recuperación. Presentamos (1) un pequeño conjunto de datos creado por humanos de 93 preguntas diseñadas para evaluar la capacidad de un canal para ingerir datos textuales, tablas, imágenes y datos distribuidos en estas modalidades en uno o más documentos; (2) una métrica de recuperación a nivel de frase para comprobar la corrección; (3) un clasificador de incrustación del vecino más cercano para identificar posibles alucinaciones en las tuberías; (4) una evaluación comparativa de 2 oleoductos construidos con mecanismos de recuperación de código abierto y 4 modelos de cimentación de código cerrado; y (5) una evaluación humana de terceros de la alineación de nuestras métricas de corrección y alucinaciones. Descubrimos que los canales de código cerrado superan significativamente a los de código abierto en métricas de corrección y alucinación, con brechas de rendimiento más amplias en preguntas que se basan en información multimodal y entre documentos. La evaluación humana de nuestras métricas mostró un acuerdo promedio de 4,62 para la corrección y 4,53 para la detección de alucinaciones en una escala Likert del 1 al 5 (5 indica “muy de acuerdo”).

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web