Resumen: Los modelos de razonamiento grande (LRM) recientes han logrado un rendimiento notable en la resolución de problemas complejos mediante ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL). Aunque los algoritmos RL existentes mejoran significativamente la precisión del modelo, todavía sufren de respuestas excesivamente largas y problemas de pensamiento excesivo, lo que resulta en una mayor latencia de inferencia y consumo computacional, especialmente para tareas simples que requieren un razonamiento mínimo. Para abordar esto, proponemos un marco de RL novedoso, DEPO, para reducir el razonamiento ineficiente de los modelos. Nuestro método consta principalmente de tres componentes principales: (1) un innovador algoritmo desacoplado de ventajas para guiar la reducción del modelo de tokens ineficientes; (2) una penalización de longitud teniendo en cuenta la dificultad para reducir la longitud total de las respuestas del modelo; (3) un método de recorte de ventajas para evitar sesgos en la optimización de políticas. En nuestros experimentos, aplicados a DeepSeek-Distill-Qwen-7B y DeepSeek-Distill-Qwen-1.5B como modelos base, DEPO logra una reducción significativa en la longitud de la secuencia en un 39% y reduce las rutas de razonamiento excesivas en tokens ineficientes, al tiempo que supera al modelo base en precisión general.
Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original
