Resumen: La rápida evolución de la generación aumentada de recuperación (RAG) hacia aplicaciones empresariales multimodales de alto riesgo ha superado el desarrollo de puntos de referencia de evaluación específicos de dominio. Los conjuntos de datos existentes a menudo dependen de corpus de dominio general o de recuperación puramente textual, sin lograr capturar la complejidad de los documentos técnicos especializados donde la información es inextricablemente multimodal y el razonamiento requiere sintetizar evidencia inconexa. Abordamos esta brecha presentando MiRAGE, un marco de múltiples agentes para la evaluación de sistemas RAG, que aprovecha un enjambre colaborativo de agentes especializados para generar conjuntos de datos de preguntas y respuestas verificados, específicos de dominio, multimodales y de múltiples saltos. MiRAGE organiza un enjambre de agentes especializados: un bucle recursivo de optimización del contexto para agregar evidencia dispersa, un agente verificador adversario para garantizar una base fáctica y un agente para reconocer la persona experta y el dominio relevante para imitar los flujos de trabajo cognitivos expertos. Una evaluación empírica exhaustiva en cuatro dominios distintos (regulaciones, finanzas, biología cuantitativa y periodismo) demuestra que MiRAGE genera conjuntos de datos con una complejidad de razonamiento significativamente mayor (>2,3 saltos promedio) y fidelidad fáctica. Nuestros estudios de ablación señalan que MiRAGE puede funcionar con LLM si hay descripciones textuales de las imágenes disponibles. La conexión a tierra visual sigue siendo una frontera. Al automatizar la creación de conjuntos de datos de evaluación estándar de oro que reflejan la estructura temática latente de corpus propietarios, MiRAGE proporciona la infraestructura necesaria para comparar rigurosamente los sistemas de recuperación de información de próxima generación.
Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original
