Resumen: Los modelos multimodales unificados (UMM) exhiben una sólida comprensión, pero esta capacidad a menudo no logra guiar de manera efectiva la generación. Identificamos esto como una brecha cognitiva: el modelo carece de comprensión de cómo mejorar su propio proceso de generación. Para cerrar esta brecha, proponemos la repromptación endógena, un mecanismo que transforma la comprensión del modelo de un proceso de codificación pasiva a un paso de razonamiento generativo explícito mediante la generación de descriptores autoalineados durante la generación. Para lograr esto, presentamos SEER (Evaluador y reprompter autoevolutivo), un marco de capacitación que establece un bucle endógeno de dos etapas utilizando solo 300 muestras de una tarea proxy compacta, Elaboración de instrucciones visuales. Primero, el aprendizaje por refuerzo con recompensas verificables (RLVR) activa la capacidad de evaluación latente del modelo a través del aprendizaje curricular, produciendo una señal de recompensa endógena de alta fidelidad. En segundo lugar, el aprendizaje por refuerzo con pensamiento recompensado por modelos (RLMT) aprovecha esta señal para optimizar la política de razonamiento generativo. Los experimentos muestran que SEER supera consistentemente las líneas base de última generación en precisión de evaluación, eficiencia de reprografía y calidad de generación, sin sacrificar las capacidades multimodales generales.
Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original
