En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->IRPAPERS: un punto de referencia de documentos visuales para la recuperación científica y la respuesta a preguntas

IRPAPERS: un punto de referencia de documentos visuales para la recuperación científica y la respuesta a preguntas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los sistemas de inteligencia artificial han logrado un éxito notable en el procesamiento de texto y datos relacionales, pero el procesamiento de documentos visuales sigue estando relativamente poco explorado. Mientras que los sistemas tradicionales requieren transcripciones OCR para convertir estos documentos visuales en texto y metadatos, los avances recientes en modelos básicos multimodales ofrecen recuperación y generación directamente a partir de imágenes de documentos. Esto plantea una pregunta clave: ¿Cómo se comparan los sistemas basados ​​en imágenes con los métodos establecidos basados ​​en texto? Presentamos IRPAPERS, un punto de referencia de 3230 páginas de 166 artículos científicos, con una imagen y una transcripción OCR para cada página. Utilizando 180 preguntas tipo aguja en el pajar, comparamos sistemas de respuesta a preguntas y recuperación basados ​​en imágenes y texto. La recuperación de texto utilizando incrustaciones de Arctic 2.0, BM25 y búsqueda de texto híbrido logró un 46% de Recall@1, un 78% de Recall@5 y un 91% de Recall@20, mientras que la recuperación basada en imágenes alcanza un 43%, 78% y 93%, respectivamente. Las dos modalidades exhiben fallas complementarias, lo que permite que la búsqueda híbrida multimodal supere a cualquiera de las dos por sí sola, logrando un 49 % de recuperación @1, un 81 % de recuperación @5 y un 95 % de recuperación @20. Evaluamos más a fondo las compensaciones entre eficiencia y rendimiento con MUVERA y evaluamos múltiples modelos de incrustación de imágenes multivectoriales. Entre los modelos de código cerrado, las incrustaciones de imágenes de páginas de Cohere Embed v4 superan a las incrustaciones de texto grande de Voyage 3 y a todos los modelos de código abierto probados, logrando un 58 % de recuperación @1, un 87 % de recuperación @5 y un 97 % de recuperación @20. Para responder preguntas, los sistemas RAG basados ​​en texto lograron una mayor alineación con la verdad sobre el terreno que los sistemas basados ​​en imágenes (0,82 frente a 0,71), y ambos se benefician sustancialmente de una mayor profundidad de recuperación, con la recuperación de múltiples documentos superando a la recuperación de un solo documento de Oracle. Analizamos las limitaciones complementarias de las representaciones de imágenes y texto unimodales e identificamos tipos de preguntas que requieren una modalidad sobre la otra. El conjunto de datos IRPAPERS y todo el código experimental están disponibles públicamente.

Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web