MiRAGE: un marco multiagente para generar un conjunto de datos multimodal de preguntas y respuestas de múltiples saltos para la evaluación de RAG

Resumen: La rápida evolución de la generación aumentada de recuperación (RAG) hacia aplicaciones empresariales multimodales de alto riesgo ha superado el desarrollo de puntos de referencia de evaluación específicos de dominio. Los conjuntos de datos existentes a menudo dependen de corpus de dominio general o de recuperación puramente textual, sin lograr capturar la complejidad de los documentos técnicos especializados donde la información es inextricablemente multimodal y el razonamiento requiere sintetizar evidencia inconexa. Abordamos esta brecha presentando MiRAGE, un marco de múltiples agentes para la evaluación de sistemas RAG, que aprovecha un enjambre colaborativo de agentes especializados para generar conjuntos de datos de preguntas y respuestas verificados, específicos de dominio, multimodales y de múltiples saltos. MiRAGE organiza un enjambre de agentes especializados: un bucle recursivo de optimización del contexto para agregar evidencia dispersa, un agente verificador adversario para garantizar una base fáctica y un agente para reconocer la persona experta y el dominio relevante para imitar los flujos de trabajo cognitivos expertos. Una evaluación empírica exhaustiva en cuatro dominios distintos (regulaciones, finanzas, biología cuantitativa y periodismo) demuestra que MiRAGE genera conjuntos de datos con una complejidad de razonamiento significativamente mayor (>2,3 saltos promedio) y fidelidad fáctica. Nuestros estudios de ablación señalan que MiRAGE puede funcionar con LLM si hay descripciones textuales de las imágenes disponibles. La conexión a tierra visual sigue siendo una frontera. Al automatizar la creación de conjuntos de datos de evaluación estándar de oro que reflejan la estructura temática latente de corpus propietarios, MiRAGE proporciona la infraestructura necesaria para comparar rigurosamente los sistemas de recuperación de información de próxima generación.

Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Optimización eficiente de proteínas mediante dinámica hamiltoniana consciente de la estructura

Ajuste de modelos de lenguaje grandes para la detección automatizada de la depresión en inglés pidgin nigeriano: estudio piloto GENSCORE

India Stack 2.0: Uso de IA para democratizar el acceso a la tecnología

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido