Resumen: Los grandes modelos en idioma de visión (LVLM) han hecho avances notables en tareas multimodales, como la respuesta de las preguntas visuales, la base visual y el razonamiento complejo. Sin embargo, permanecen limitados por los datos de entrenamiento estático, la susceptibilidad a las alucinaciones e incapacidad para verificar las afirmaciones contra la evidencia externa actualizada, comprometiendo su rendimiento en aplicaciones dinámicas del mundo real. La generación de recuperación de la generación (RAG) ofrece una solución práctica para mitigar estos desafíos al permitir que los LVLM accedan a bases de datos de conocimiento a gran escala a través de mecanismos de recuperación, basando así en los resultados de los modelos en información fáctica y contextualmente relevante. Aquí en este documento, realizamos la primera disección sistemática de la tubería de RAG multimodal para LVLM, investigando explícitamente (1) la fase de recuperación: sobre las configuraciones de modalidad y las estrategias de recuperación, (2) la etapa de re-rango: sobre estrategias para mitigar los sesis de posición y mejorar la relevancia de la evidencia retrieved, y (3) la generación de la generación: la fase de la generación de la generación: cómo la fase de la generación de la generación: la mejor invernación de cómo la fase de la mejor integración de la posición de la posición es más. proceso de generación. Finalmente, nos extendemos para explorar un marco de agente unificado que integra el reanimiento y la generación a través de la autorreflexión, lo que permite a LVLMS seleccionar evidencia relevante y suprimir dinámicamente el contexto irrelevante. Nuestra exploración de pila completa de RAG para LVLMS produce ideas sustanciales, lo que resulta en un aumento promedio de rendimiento del 5% sin ningún ajuste fino.

Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original

MRAG: dilucidar el espacio de diseño de la generación de recuperación multimodal

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

TalkToagent: una explicación centrada en el ser humano de los agentes de aprendizaje de refuerzo con modelos de idiomas grandes

Un análisis multifacético de las habilidades cognitivas: evaluación de métodos rápidos con modelos de lenguaje grandes en la lista de verificación CONSORT

De los registros médicos a los diálogos diagnósticos: un enfoque clínico y un conjunto de datos para la comorbilidad psiquiátrica

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido