Política de pensamientos: ampliación del razonamiento de LLM a través de la evolución de las políticas en el momento de la prueba

Resumen: Los modelos de lenguajes grandes (LLM) luchan con un razonamiento complejo y de largo plazo debido a la inestabilidad causada por su supuesto político congelado. Los métodos actuales de escalamiento en tiempo de prueba tratan la retroalimentación de la ejecución simplemente como una señal externa para filtrar o reescribir trayectorias, sin internalizarla para mejorar la estrategia de razonamiento subyacente. Inspirándonos en la epistemología de “conjeturas y refutaciones” de Popper, sostenemos que la inteligencia requiere una evolución en tiempo real de la política del modelo a través del aprendizaje de intentos fallidos. Presentamos la Política de Pensamientos (PoT), un marco que reformula el razonamiento como un proceso de optimización en línea dentro de una instancia. PoT primero genera diversas soluciones candidatas a través de un mecanismo de exploración eficiente, luego utiliza la optimización de políticas relativas al grupo (GRPO) para actualizar un adaptador LoRA transitorio en función de los comentarios de ejecución. Este diseño de bucle cerrado permite un refinamiento dinámico y específico de cada instancia de los antecedentes de razonamiento del modelo. Los experimentos muestran que PoT aumenta drásticamente el rendimiento: un modelo 4B logra una precisión del 49,71 % en LiveCodeBench, superando a GPT-4o y DeepSeek-V3 a pesar de ser más de 50 más pequeños.

Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

HGFormer: un marco de transformador de gráficos jerárquicos para juegos de dos etapas del coronel Blotto a través del aprendizaje de refuerzo

Smellnet: un conjunto de datos a gran escala para el reconocimiento del olor al mundo real

Selección incremental de las conjeturas más filtradas y pruebas de las conjeturas seleccionadas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido