Mezcla de pensamientos visuales: explorar la selección del modo de razonamiento adaptativo para el contexto para el razonamiento visual general

Resumen: Los métodos actuales de razonamiento visual se centran principalmente en explorar modos de razonamiento específicos. Aunque se pueden lograr mejoras en dominios particulares, luchan por desarrollar capacidades de razonamiento general. Inspirados en esto, proponemos un nuevo paradigma de razonamiento adaptativo, Mezcla de Presentaciones Visuales (MOVT), que unifica diferentes modos de razonamiento dentro de un solo modelo y lo guía para seleccionar el modo apropiado basado en el contexto. Para lograr esto, presentamos a Adavar, un marco de aprendizaje de razonamiento visual adaptativo de dos etapas: los diferentes modos se unifican y aprenden durante la etapa supervisada de inicio frío, y la capacidad de selección de modo se induce a través de un proceso RL con un algoritmo Adagrpo cuidadosamente diseñado. Extensos experimentos muestran que Adavar guía efectivamente el modelo para aprender y diferenciar múltiples modos y realizar la selección del modo de contexto adaptativo, logrando una mejora consistente en varios escenarios, destacando Movt como una solución efectiva para construir modelos generales de razonamiento visual.

Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Mejora del aprendizaje interactivo en contexto a partir de comentarios en lenguaje natural

Mass: escala de simulación de múltiples agentes para la construcción de cartera

MEML-GRPO: aprendizaje mutuo múltiple heterogéneo para avance RLVR

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido