Resumen: El aprendizaje de refuerzo con recompensas verificables (RLVR) mejora el razonamiento en modelos de idiomas grandes (LLM) pero lucha con la exploración, un problema que aún persiste para LLM multimodales (MLLM). Los métodos actuales tratan la entrada visual como una condición determinista fija, con vistas a una fuente crítica de ambigüedad y luchando por construir políticas robustas a variaciones visuales plausibles. Introducimos $ textbf {Vogue (exploración guiada por incertidumbre visual)} $, un método novedoso que cambia la exploración de la salida (texto) al espacio de entrada (visual). Al tratar la imagen como un contexto estocástico, Vogue cuantifica la sensibilidad de la política a las perturbaciones visuales utilizando la divergencia simétrica de KL entre una rama “cruda” y “ruidosa”, creando una señal directa para la exploración de la incertidumbre. Esta señal da forma al objetivo de aprendizaje a través de una bonificación de incertidumbre proporcional, que, combinada con un bono de entropía de token y un programa de muestreo recocido, equilibra efectivamente la exploración y explotación. Implementado dentro de GRPO en dos escalas modelo (QWEN2.5-VL-3B/7B), Vogue aumenta la precisión de PASS@1 en un promedio de 2.6% en tres puntos de referencia de matemáticas visuales y 3.7% en tres puntos de referencia de razonamiento de dominios generales, mientras que aumentando simultáneamente el rendimiento de Pass@4 y mitigar la exploración de la exploración comúnmente observada en RLLE-Tuning. Nuestro trabajo muestra que la exploración de base en la incertidumbre inherente de las entradas visuales es una estrategia efectiva para mejorar el razonamiento multimodal.
Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original