En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Podar una larga cadena de pensamiento de grandes modelos de razonamiento a través de la optimización de preferencias a pequeña escala

Podar una larga cadena de pensamiento de grandes modelos de razonamiento a través de la optimización de preferencias a pequeña escala

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los avances recientes en grandes modelos de razonamiento (LRMS) han demostrado un fuerte rendimiento en tareas complejas a través del razonamiento largo de la cadena de pensamiento (COT). Sin embargo, sus largos resultados aumentan los costos computacionales y pueden conducir a un pensamiento demasiado, aumentando los desafíos para equilibrar la efectividad y la eficiencia del razonamiento. Los métodos actuales para un razonamiento eficiente a menudo comprometen la calidad del razonamiento o requieren recursos extensos. Este documento investiga métodos eficientes para reducir la longitud de generación de los LRM. Analizamos las distribuciones de ruta de generación y el filtro de las trayectorias generadas a través de la estimación de dificultad. Posteriormente, analizamos los comportamientos de convergencia de los objetivos de varios métodos de optimización de preferencias bajo un marco basado en la pérdida de Bradley-Terry. Según el análisis, proponemos la optimización de preferencia controlada de longitud (LCPO) que equilibra directamente la recompensa implícita relacionada con la pérdida de NLL. LCPO puede aprender efectivamente la preferencia de longitud con datos y capacitación limitados. Experimentos extensos demuestran que nuestro enfoque reduce significativamente la longitud de salida promedio en más del 50 % en múltiples puntos de referencia mientras mantiene el rendimiento del razonamiento. Nuestro trabajo destaca el potencial de enfoques computacionalmente eficientes en la guía de LRM hacia un razonamiento eficiente.

Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web