Resumen: Los sistemas de inteligencia artificial han logrado un éxito notable en el procesamiento de texto y datos relacionales, pero el procesamiento de documentos visuales sigue estando relativamente poco explorado. Mientras que los sistemas tradicionales requieren transcripciones OCR para convertir estos documentos visuales en texto y metadatos, los avances recientes en modelos básicos multimodales ofrecen recuperación y generación directamente a partir de imágenes de documentos. Esto plantea una pregunta clave: ¿Cómo se comparan los sistemas basados en imágenes con los métodos establecidos basados en texto? Presentamos IRPAPERS, un punto de referencia de 3230 páginas de 166 artículos científicos, con una imagen y una transcripción OCR para cada página. Utilizando 180 preguntas tipo aguja en el pajar, comparamos sistemas de respuesta a preguntas y recuperación basados en imágenes y texto. La recuperación de texto utilizando incrustaciones de Arctic 2.0, BM25 y búsqueda de texto híbrido logró un 46% de Recall@1, un 78% de Recall@5 y un 91% de Recall@20, mientras que la recuperación basada en imágenes alcanza un 43%, 78% y 93%, respectivamente. Las dos modalidades exhiben fallas complementarias, lo que permite que la búsqueda híbrida multimodal supere a cualquiera de las dos por sí sola, logrando un 49 % de recuperación @1, un 81 % de recuperación @5 y un 95 % de recuperación @20. Evaluamos más a fondo las compensaciones entre eficiencia y rendimiento con MUVERA y evaluamos múltiples modelos de incrustación de imágenes multivectoriales. Entre los modelos de código cerrado, las incrustaciones de imágenes de páginas de Cohere Embed v4 superan a las incrustaciones de texto grande de Voyage 3 y a todos los modelos de código abierto probados, logrando un 58 % de recuperación @1, un 87 % de recuperación @5 y un 97 % de recuperación @20. Para responder preguntas, los sistemas RAG basados en texto lograron una mayor alineación con la verdad sobre el terreno que los sistemas basados en imágenes (0,82 frente a 0,71), y ambos se benefician sustancialmente de una mayor profundidad de recuperación, con la recuperación de múltiples documentos superando a la recuperación de un solo documento de Oracle. Analizamos las limitaciones complementarias de las representaciones de imágenes y texto unimodales e identificamos tipos de preguntas que requieren una modalidad sobre la otra. El conjunto de datos IRPAPERS y todo el código experimental están disponibles públicamente.
Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original
