Resumen: Los grandes modelos en idioma de visión (LVLM) han hecho avances notables en tareas multimodales, como la respuesta de las preguntas visuales, la base visual y el razonamiento complejo. Sin embargo, permanecen limitados por los datos de entrenamiento estático, la susceptibilidad a las alucinaciones e incapacidad para verificar las afirmaciones contra la evidencia externa actualizada, comprometiendo su rendimiento en aplicaciones dinámicas del mundo real. La generación de recuperación de la generación (RAG) ofrece una solución práctica para mitigar estos desafíos al permitir que los LVLM accedan a bases de datos de conocimiento a gran escala a través de mecanismos de recuperación, basando así en los resultados de los modelos en información fáctica y contextualmente relevante. Aquí en este documento, realizamos la primera disección sistemática de la tubería de RAG multimodal para LVLM, investigando explícitamente (1) la fase de recuperación: sobre las configuraciones de modalidad y las estrategias de recuperación, (2) la etapa de re-rango: sobre estrategias para mitigar los sesis de posición y mejorar la relevancia de la evidencia retrieved, y (3) la generación de la generación: la fase de la generación de la generación: cómo la fase de la generación de la generación: la mejor invernación de cómo la fase de la mejor integración de la posición de la posición es más. proceso de generación. Finalmente, nos extendemos para explorar un marco de agente unificado que integra el reanimiento y la generación a través de la autorreflexión, lo que permite a LVLMS seleccionar evidencia relevante y suprimir dinámicamente el contexto irrelevante. Nuestra exploración de pila completa de RAG para LVLMS produce ideas sustanciales, lo que resulta en un aumento promedio de rendimiento del 5% sin ningún ajuste fino.
Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original