Resumen: Los modelos recientes de visión-lenguaje (VLM) logran un razonamiento notable a través del aprendizaje por refuerzo (RL), que proporciona una solución factible para realizar grandes modelos de visión-lenguaje (LVLM) autoevolutivos y continuos en la era de la experiencia. Sin embargo, RL para VLM requiere abundantes datos multimodales de alta calidad, lo que es especialmente desafiante en dominios especializados como la química, las ciencias de la tierra y las matemáticas multimodales. Las estrategias existentes, como los datos sintéticos y los mecanismos de autorecompensa, adolecen de distribuciones limitadas y dificultades de alineación, lo que en última instancia provoca una piratería de recompensas: los modelos explotan patrones de alta recompensa, colapsando la entropía de las políticas y desestabilizando la capacitación. Proponemos DoGe (Desacoplar para generalizar), un marco de desacoplamiento dual que guía a los modelos para que primero aprendan del contexto en lugar de resolver problemas al reenfocarse en los escenarios del contexto del problema que los métodos de datos sintéticos pasan por alto. Al desacoplar el proceso de aprendizaje en componentes duales (Pensador y Solver), cuantificamos razonablemente las señales de recompensa de este proceso y proponemos un enfoque posterior al entrenamiento de RL de dos etapas, desde la exploración libre del contexto hasta la resolución práctica de tareas. En segundo lugar, para aumentar la diversidad de los datos de entrenamiento, DoGe construye un canal de aprendizaje curricular en evolución: un corpus de conocimiento de dominio nativo ampliado y un conjunto de problemas semilla en evolución iterativa. Los experimentos muestran que nuestro método supera consistentemente la línea de base en varios puntos de referencia, proporcionando un camino escalable para realizar LVLM que evolucionan por sí solos.
Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original
