Resumen: Los modelos de lenguaje de razonamiento como Deepseek-R1 producen largos rastros de cadena de pensamiento durante el tiempo de inferencia que los hacen costosos de desplegar a escala. Mostramos que el uso de técnicas de compresión como la poda de redes neuronales produce una mayor pérdida de rendimiento que en las tareas de modelado de idiomas típicos, y en algunos casos puede hacer que el modelo sea más lento, ya que hace que el modelo produzca más tokens de pensamiento pero con peor rendimiento. Mostramos que esto se debe en parte al hecho de que los métodos estándar de poda LLM a menudo se centran en la reconstrucción de entrada, mientras que el razonamiento es una tarea dominada por decodificaciones. Introducimos una solución simple y sin rodea: durante la poda reconstruimos conjuntamente las activaciones de la entrada y las trazas de cadena de pensamiento en política del modelo. Esta “compresión consciente del razonamiento” (RAC) se integra perfectamente en los flujos de trabajo de poda existentes como SPARSEGPT, y aumenta su rendimiento significativamente. El código que reproduce los resultados en el documento se puede encontrar en: esta URL HTTPS
Publicado Originalme en export.arxiv.org El 16 de septiembre de 2025.
Ver Fuente Original