En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->DeepCompress: una estrategia de doble recompensa para explorar y comprimir dinámicamente cadenas de razonamiento

DeepCompress: una estrategia de doble recompensa para explorar y comprimir dinámicamente cadenas de razonamiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los grandes modelos de razonamiento (LRM) han demostrado capacidades impresionantes, pero adolecen de ineficiencias cognitivas como “pensar demasiado” en problemas simples y “pensar insuficientemente” en problemas complejos. Si bien los métodos existentes que utilizan ajuste fino supervisado~(SFT) o aprendizaje por refuerzo~(RL) con recompensas de longitud de token pueden mejorar la eficiencia, a menudo lo hacen a costa de la precisión. Este artículo presenta textbf{DeepCompress}, un marco novedoso que mejora simultáneamente tanto la precisión como la eficiencia de los LRM. Desafiamos el enfoque predominante de favorecer sistemáticamente caminos de razonamiento más cortos, mostrando que las respuestas más largas pueden contener una gama más amplia de soluciones correctas para problemas difíciles. DeepCompress emplea un mecanismo de recompensa de longitud adaptable que clasifica dinámicamente los problemas como “simples” o “difíciles” en tiempo real según la capacidad de evolución del modelo. Fomenta un razonamiento más breve y eficiente para problemas “simples” y al mismo tiempo promueve cadenas de pensamiento más largas y exploratorias para problemas “difíciles”. Esta estrategia de doble recompensa permite al modelo ajustar de forma autónoma la longitud de su Cadena de Pensamiento (CoT), comprimiendo el razonamiento para problemas bien dominados y ampliándolo para aquellos que considera desafiantes. Los resultados experimentales en puntos de referencia matemáticos desafiantes muestran que DeepCompress supera consistentemente a los métodos de referencia, logrando una precisión superior y mejorando significativamente la eficiencia de los tokens.

Publicado originalmente en export.arxiv.org el 2 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web