Podar una larga cadena de pensamiento de grandes modelos de razonamiento a través de la optimización de preferencias a pequeña escala

Resumen: Los avances recientes en grandes modelos de razonamiento (LRMS) han demostrado un fuerte rendimiento en tareas complejas a través del razonamiento largo de la cadena de pensamiento (COT). Sin embargo, sus largos resultados aumentan los costos computacionales y pueden conducir a un pensamiento demasiado, aumentando los desafíos para equilibrar la efectividad y la eficiencia del razonamiento. Los métodos actuales para un razonamiento eficiente a menudo comprometen la calidad del razonamiento o requieren recursos extensos. Este documento investiga métodos eficientes para reducir la longitud de generación de los LRM. Analizamos las distribuciones de ruta de generación y el filtro de las trayectorias generadas a través de la estimación de dificultad. Posteriormente, analizamos los comportamientos de convergencia de los objetivos de varios métodos de optimización de preferencias bajo un marco basado en la pérdida de Bradley-Terry. Según el análisis, proponemos la optimización de preferencia controlada de longitud (LCPO) que equilibra directamente la recompensa implícita relacionada con la pérdida de NLL. LCPO puede aprender efectivamente la preferencia de longitud con datos y capacitación limitados. Experimentos extensos demuestran que nuestro enfoque reduce significativamente la longitud de salida promedio en más del 50 % en múltiples puntos de referencia mientras mantiene el rendimiento del razonamiento. Nuestro trabajo destaca el potencial de enfoques computacionalmente eficientes en la guía de LRM hacia un razonamiento eficiente.

Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Secuencia de primavera: una nueva construcción matemática para probar la inferencia simbólica y el razonamiento de IA

Juego con andamios simbólicos: diseño de indicaciones sensibles a los roles para el diálogo generativo de NPC

Internet de las cosas del espacio

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido