En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Política de pensamientos: ampliación del razonamiento de LLM a través de la evolución de las políticas en el momento de la prueba

Política de pensamientos: ampliación del razonamiento de LLM a través de la evolución de las políticas en el momento de la prueba

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM) luchan con un razonamiento complejo y de largo plazo debido a la inestabilidad causada por su supuesto político congelado. Los métodos actuales de escalamiento en tiempo de prueba tratan la retroalimentación de la ejecución simplemente como una señal externa para filtrar o reescribir trayectorias, sin internalizarla para mejorar la estrategia de razonamiento subyacente. Inspirándonos en la epistemología de “conjeturas y refutaciones” de Popper, sostenemos que la inteligencia requiere una evolución en tiempo real de la política del modelo a través del aprendizaje de intentos fallidos. Presentamos la Política de Pensamientos (PoT), un marco que reformula el razonamiento como un proceso de optimización en línea dentro de una instancia. PoT primero genera diversas soluciones candidatas a través de un mecanismo de exploración eficiente, luego utiliza la optimización de políticas relativas al grupo (GRPO) para actualizar un adaptador LoRA transitorio en función de los comentarios de ejecución. Este diseño de bucle cerrado permite un refinamiento dinámico y específico de cada instancia de los antecedentes de razonamiento del modelo. Los experimentos muestran que PoT aumenta drásticamente el rendimiento: un modelo 4B logra una precisión del 49,71 % en LiveCodeBench, superando a GPT-4o y DeepSeek-V3 a pesar de ser más de 50 más pequeños.

Publicado originalmente en export.arxiv.org el 28 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web