En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Razonamiento conciso desde la perspectiva de la optimización lagrangiana

Razonamiento conciso desde la perspectiva de la optimización lagrangiana

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El razonamiento conciso en modelos de lenguaje grandes busca generar solo los pasos intermedios esenciales necesarios para llegar a una respuesta final, aliviando así los problemas de pensamiento excesivo. La mayoría de los enfoques propuestos se basan en heurísticas cuidadosamente elaboradas a mano, que luchan por equilibrar la concisión con el rendimiento y que a menudo no logran adaptarse entre dominios y escalas de modelos. En este trabajo, abordamos estos desafíos mediante la introducción de una estrategia pragmática y basada en principios, la actualización de longitud consciente del rendimiento (PALU). Como algoritmo basado en principios, PALU formula un razonamiento conciso como un problema de optimización restringido, minimizando la longitud de la respuesta sujeta a una restricción de rendimiento, y luego aplica la optimización lagrangiana para convertirlo en un problema manejable sin restricciones. Como solución pragmática, PALU simplifica las reglas de actualización complicadas a través de tres aproximaciones: (i) estimar el rendimiento con implementaciones fuera de políticas, (ii) truncar el multiplicador de Lagrange a dos extremos y (iii) reemplazar las actualizaciones basadas en gradientes con ajustes de longitud basados ​​en cuantiles. PALU reduce la longitud de salida en un 65 % y mejora la precisión en un 15 % cuando se aplica a DeepSeek-Distill-Qwen-1.5B, promediando cinco puntos de referencia, superando una variedad de métodos alternativos. Además, se ha demostrado que PALU se adapta tanto al dominio (lógica, STEM y matemáticas) como a la escala del modelo (1.5B, 7B, 14B), lo que consolida el algoritmo como un enfoque de razonamiento conciso práctico y eficaz.

Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web