Cadena de pensamiento latente para el razonamiento visual

Resumen: El razonamiento de cadena de pensamiento (CoT) es fundamental para mejorar la interpretabilidad y confiabilidad de los modelos de lenguaje-visión amplios (LVLM). Sin embargo, es posible que los algoritmos de entrenamiento existentes, como SFT, PPO y GRPO, no se generalicen bien en tareas de razonamiento invisibles y dependan en gran medida de un modelo de recompensa sesgado. Para abordar este desafío, reformulamos el razonamiento en LVLM como inferencia posterior y proponemos un algoritmo de entrenamiento escalable basado en inferencia variacional amortizada. Al aprovechar los algoritmos de aprendizaje por refuerzo que buscan diversidad, introducimos una novedosa función de recompensa dispersa para señales de aprendizaje a nivel de token que fomentan CoT latentes diversas y de alta probabilidad, superando las limitaciones deterministas de muestreo y evitando la piratería de recompensas. Además, implementamos una estrategia de escalamiento de inferencia bayesiana que reemplaza las costosas búsquedas de haz y mejor de N con una probabilidad marginal de clasificar de manera eficiente los fundamentos y respuestas óptimos. Demostramos empíricamente que el método propuesto mejora los LVLM de última generación en siete puntos de referencia de razonamiento, en términos de efectividad, generalización e interpretabilidad.

Publicado originalmente en export.arxiv.org el 28 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Co-EPG: un marco para la coevolución de la planificación y la puesta a tierra en agentes GUI autónomos

Cómo hacer que el progreso de la energía limpia esté bajo Trump en los Estados Unidos: tanto azul como rojo

La descarga: un radar cuántico y el acuerdo de los fabricantes de chips con el gobierno de los Estados Unidos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido