Resumen: Los grandes modelos de razonamiento (LRM) han demostrado capacidades impresionantes, pero adolecen de ineficiencias cognitivas como “pensar demasiado” en problemas simples y “pensar insuficientemente” en problemas complejos. Si bien los métodos existentes que utilizan ajuste fino supervisado~(SFT) o aprendizaje por refuerzo~(RL) con recompensas de longitud de token pueden mejorar la eficiencia, a menudo lo hacen a costa de la precisión. Este artículo presenta textbf{DeepCompress}, un marco novedoso que mejora simultáneamente tanto la precisión como la eficiencia de los LRM. Desafiamos el enfoque predominante de favorecer sistemáticamente caminos de razonamiento más cortos, mostrando que las respuestas más largas pueden contener una gama más amplia de soluciones correctas para problemas difíciles. DeepCompress emplea un mecanismo de recompensa de longitud adaptable que clasifica dinámicamente los problemas como “simples” o “difíciles” en tiempo real según la capacidad de evolución del modelo. Fomenta un razonamiento más breve y eficiente para problemas “simples” y al mismo tiempo promueve cadenas de pensamiento más largas y exploratorias para problemas “difíciles”. Esta estrategia de doble recompensa permite al modelo ajustar de forma autónoma la longitud de su Cadena de Pensamiento (CoT), comprimiendo el razonamiento para problemas bien dominados y ampliándolo para aquellos que considera desafiantes. Los resultados experimentales en puntos de referencia matemáticos desafiantes muestran que DeepCompress supera consistentemente a los métodos de referencia, logrando una precisión superior y mejorando significativamente la eficiencia de los tokens.

Publicado originalmente en export.arxiv.org el 2 de noviembre de 2025.
Ver fuente original

DeepCompress: una estrategia de doble recompensa para explorar y comprimir dinámicamente cadenas de razonamiento

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

TalentMine: extracción basada en LLM y respuesta de preguntas de tablas de talento multimodal

La descarga: Presentación de nuestros 35 innovadores en la lista de 35 para 2025

Gridroute: un punto de referencia para la planificación de rutas basada en LLM con movimiento cardinal en entornos de cuadrícula

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido