Resumen: La respuesta multimodal de preguntas multi-salto requiere integrar información de diversas fuentes, como imágenes y textos, para obtener respuestas. Los métodos existentes generalmente dependen de la recuperación y el razonamiento secuencial, donde cada paso se basa en la salida anterior. Sin embargo, este paradigma de una sola vía los hace vulnerables a los errores debido a pasos intermedios engañosos. Además, el desarrollo de modelos multimodales puede ser computacionalmente costoso, a menudo requerir una amplia capacitación. Para abordar estas limitaciones, proponemos un marco sin capacitación guiado por un gráfico de planificación adaptativa, que consiste en módulos de planificación, recuperación y razonamiento. El módulo de planificación analiza el estado actual del gráfico de planificación adaptativa, determina la siguiente acción y dónde expandir el gráfico, lo que permite la exploración dinámica y flexible de las rutas de razonamiento. Para manejar la recuperación del texto a modalidades objetivo no especificadas, diseñamos estrategias específicas de modalidad que se adaptan dinámicamente a distintos tipos de datos. Nuestro enfoque conserva las características de la información multimodal sin una capacitación costosa específica de la tarea, lo que permite una integración perfecta con modelos actualizados. Finalmente, los experimentos en multimodalqa y Webqa muestran que nuestro enfoque coincide o supera a los modelos existentes que dependen de la capacitación.
Publicado Originalme en export.arxiv.org El 24 de agosto de 2025.
Ver Fuente Original