Resumen: El razonamiento de cadena de pensamiento (CoT) es fundamental para mejorar la interpretabilidad y confiabilidad de los modelos de lenguaje-visión amplios (LVLM). Sin embargo, es posible que los algoritmos de entrenamiento existentes, como SFT, PPO y GRPO, no se generalicen bien en tareas de razonamiento invisibles y dependan en gran medida de un modelo de recompensa sesgado. Para abordar este desafío, reformulamos el razonamiento en LVLM como inferencia posterior y proponemos un algoritmo de entrenamiento escalable basado en inferencia variacional amortizada. Al aprovechar los algoritmos de aprendizaje por refuerzo que buscan diversidad, introducimos una novedosa función de recompensa dispersa para señales de aprendizaje a nivel de token que fomentan CoT latentes diversas y de alta probabilidad, superando las limitaciones deterministas de muestreo y evitando la piratería de recompensas. Además, implementamos una estrategia de escalamiento de inferencia bayesiana que reemplaza las costosas búsquedas de haz y mejor de N con una probabilidad marginal de clasificar de manera eficiente los fundamentos y respuestas óptimos. Demostramos empíricamente que el método propuesto mejora los LVLM de última generación en siete puntos de referencia de razonamiento, en términos de efectividad, generalización e interpretabilidad.
Publicado originalmente en export.arxiv.org el 28 de octubre de 2025.
Ver fuente original
