Reprompting endógeno: alineación cognitiva autoevolutiva para modelos multimodales unificados

Resumen: Los modelos multimodales unificados (UMM) exhiben una sólida comprensión, pero esta capacidad a menudo no logra guiar de manera efectiva la generación. Identificamos esto como una brecha cognitiva: el modelo carece de comprensión de cómo mejorar su propio proceso de generación. Para cerrar esta brecha, proponemos la repromptación endógena, un mecanismo que transforma la comprensión del modelo de un proceso de codificación pasiva a un paso de razonamiento generativo explícito mediante la generación de descriptores autoalineados durante la generación. Para lograr esto, presentamos SEER (Evaluador y reprompter autoevolutivo), un marco de capacitación que establece un bucle endógeno de dos etapas utilizando solo 300 muestras de una tarea proxy compacta, Elaboración de instrucciones visuales. Primero, el aprendizaje por refuerzo con recompensas verificables (RLVR) activa la capacidad de evaluación latente del modelo a través del aprendizaje curricular, produciendo una señal de recompensa endógena de alta fidelidad. En segundo lugar, el aprendizaje por refuerzo con pensamiento recompensado por modelos (RLMT) aprovecha esta señal para optimizar la política de razonamiento generativo. Los experimentos muestran que SEER supera consistentemente las líneas base de última generación en precisión de evaluación, eficiencia de reprografía y calidad de generación, sin sacrificar las capacidades multimodales generales.

Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un punto de referencia para generalizar en diversas estrategias de equipo en competitivo Pok ‘Emon

Desbloqueo de agilidad empresarial en la economía API

LF Decentralized Trust anuncia seis nuevos miembros, Programa de proveedores de servicios certificados ampliados

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido