Resumen: Los modelos de lenguaje de razonamiento como Deepseek-R1 producen largos rastros de cadena de pensamiento durante el tiempo de inferencia que los hacen costosos de desplegar a escala. Mostramos que el uso de técnicas de compresión como la poda de redes neuronales produce una mayor pérdida de rendimiento que en las tareas de modelado de idiomas típicos, y en algunos casos puede hacer que el modelo sea más lento, ya que hace que el modelo produzca más tokens de pensamiento pero con peor rendimiento. Mostramos que esto se debe en parte al hecho de que los métodos estándar de poda LLM a menudo se centran en la reconstrucción de entrada, mientras que el razonamiento es una tarea dominada por decodificaciones. Introducimos una solución simple y sin rodea: durante la poda reconstruimos conjuntamente las activaciones de la entrada y las trazas de cadena de pensamiento en política del modelo. Esta “compresión consciente del razonamiento” (RAC) se integra perfectamente en los flujos de trabajo de poda existentes como SPARSEGPT, y aumenta su rendimiento significativamente. El código que reproduce los resultados en el documento se puede encontrar en: esta URL HTTPS

Publicado Originalme en export.arxiv.org El 16 de septiembre de 2025.
Ver Fuente Original

Los modelos de razonamiento se pueden podar con precisión a través de la reconstrucción de la cadena de pensamiento

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

DAG-Math: razonamiento matemático guiado por gráficos en LLM

Aristóteles: Probación automatizada de teorema a nivel de IMO

La especificación técnica de ETSI establece un punto de referencia internacional para asegurar la IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido