Hacia el pensamiento flash a través de la optimización de políticas de ventajas desacopladas

Resumen: Los modelos de razonamiento grande (LRM) recientes han logrado un rendimiento notable en la resolución de problemas complejos mediante ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL). Aunque los algoritmos RL existentes mejoran significativamente la precisión del modelo, todavía sufren de respuestas excesivamente largas y problemas de pensamiento excesivo, lo que resulta en una mayor latencia de inferencia y consumo computacional, especialmente para tareas simples que requieren un razonamiento mínimo. Para abordar esto, proponemos un marco de RL novedoso, DEPO, para reducir el razonamiento ineficiente de los modelos. Nuestro método consta principalmente de tres componentes principales: (1) un innovador algoritmo desacoplado de ventajas para guiar la reducción del modelo de tokens ineficientes; (2) una penalización de longitud teniendo en cuenta la dificultad para reducir la longitud total de las respuestas del modelo; (3) un método de recorte de ventajas para evitar sesgos en la optimización de políticas. En nuestros experimentos, aplicados a DeepSeek-Distill-Qwen-7B y DeepSeek-Distill-Qwen-1.5B como modelos base, DEPO logra una reducción significativa en la longitud de la secuencia en un 39% y reduce las rutas de razonamiento excesivas en tokens ineficientes, al tiempo que supera al modelo base en precisión general.

Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cinco cosas que necesitas saber sobre AI ahora mismo

Mitigación de riesgos interpretable en los sistemas de agentes LLM

Microalgo desarrolla tecnología de auto-optimización del clasificador basada en algoritmos cuánticos variacionales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido