MMAPG: Un marco sin capacitación para la respuesta multimodal de preguntas múltiples a través de gráficos de planificación adaptativa

Resumen: La respuesta multimodal de preguntas multi-salto requiere integrar información de diversas fuentes, como imágenes y textos, para obtener respuestas. Los métodos existentes generalmente dependen de la recuperación y el razonamiento secuencial, donde cada paso se basa en la salida anterior. Sin embargo, este paradigma de una sola vía los hace vulnerables a los errores debido a pasos intermedios engañosos. Además, el desarrollo de modelos multimodales puede ser computacionalmente costoso, a menudo requerir una amplia capacitación. Para abordar estas limitaciones, proponemos un marco sin capacitación guiado por un gráfico de planificación adaptativa, que consiste en módulos de planificación, recuperación y razonamiento. El módulo de planificación analiza el estado actual del gráfico de planificación adaptativa, determina la siguiente acción y dónde expandir el gráfico, lo que permite la exploración dinámica y flexible de las rutas de razonamiento. Para manejar la recuperación del texto a modalidades objetivo no especificadas, diseñamos estrategias específicas de modalidad que se adaptan dinámicamente a distintos tipos de datos. Nuestro enfoque conserva las características de la información multimodal sin una capacitación costosa específica de la tarea, lo que permite una integración perfecta con modelos actualizados. Finalmente, los experimentos en multimodalqa y Webqa muestran que nuestro enfoque coincide o supera a los modelos existentes que dependen de la capacitación.

Publicado Originalme en export.arxiv.org El 24 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Retos de innovación avanzada de EIC

Desarrollo de un curso de IA para estudiantes de química sintética

Construcción de taxonomía de ocupación basada en datos: un enfoque de etapas múltiples ascendentes a través de agrupación semántica y colaboración de múltiples agentes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido