Resumen: Los métodos actuales de razonamiento visual se centran principalmente en explorar modos de razonamiento específicos. Aunque se pueden lograr mejoras en dominios particulares, luchan por desarrollar capacidades de razonamiento general. Inspirados en esto, proponemos un nuevo paradigma de razonamiento adaptativo, Mezcla de Presentaciones Visuales (MOVT), que unifica diferentes modos de razonamiento dentro de un solo modelo y lo guía para seleccionar el modo apropiado basado en el contexto. Para lograr esto, presentamos a Adavar, un marco de aprendizaje de razonamiento visual adaptativo de dos etapas: los diferentes modos se unifican y aprenden durante la etapa supervisada de inicio frío, y la capacidad de selección de modo se induce a través de un proceso RL con un algoritmo Adagrpo cuidadosamente diseñado. Extensos experimentos muestran que Adavar guía efectivamente el modelo para aprender y diferenciar múltiples modos y realizar la selección del modo de contexto adaptativo, logrando una mejora consistente en varios escenarios, destacando Movt como una solución efectiva para construir modelos generales de razonamiento visual.
Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original