Resumen: Los modelos de lenguajes grandes (LLM) luchan con un razonamiento complejo y de largo plazo debido a la inestabilidad causada por su supuesto político congelado. Los métodos actuales de escalamiento en tiempo de prueba tratan la retroalimentación de la ejecución simplemente como una señal externa para filtrar o reescribir trayectorias, sin internalizarla para mejorar la estrategia de razonamiento subyacente. Inspirándonos en la epistemología de “conjeturas y refutaciones” de Popper, sostenemos que la inteligencia requiere una evolución en tiempo real de la política del modelo a través del aprendizaje de intentos fallidos. Presentamos la Política de Pensamientos (PoT), un marco que reformula el razonamiento como un proceso de optimización en línea dentro de una instancia. PoT primero genera diversas soluciones candidatas a través de un mecanismo de exploración eficiente, luego utiliza la optimización de políticas relativas al grupo (GRPO) para actualizar un adaptador LoRA transitorio en función de los comentarios de ejecución. Este diseño de bucle cerrado permite un refinamiento dinámico y específico de cada instancia de los antecedentes de razonamiento del modelo. Los experimentos muestran que PoT aumenta drásticamente el rendimiento: un modelo 4B logra una precisión del 49,71 % en LiveCodeBench, superando a GPT-4o y DeepSeek-V3 a pesar de ser más de 50 más pequeños.
Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original
