Control-R: hacia la escala de tiempo de prueba controlable

Resumen: Este artículo de documento para abordar los desafíos de los pensamientos subterráneos y el pensamiento demasiado en la larga cadena de pensamiento (COT) razonamiento para grandes modelos de razonamiento (LRMS) al introducir campos de control de razonamiento (RCF), un enfoque de tiempo de prueba novedoso que inyecta señales de control estructuradas para guiar el razonamiento desde una perspectiva de búsqueda de árbol. RCF permite que los modelos ajusten el esfuerzo de razonamiento de acuerdo con las condiciones de control dadas al resolver tareas complejas. Además, presentamos el conjunto de datos Control-R-4K, que consiste en problemas desafiantes anotados con procesos de razonamiento detallados y campos de control correspondientes. Para mejorar aún más el control de razonamiento, proponemos un método de finuga de destilación condicional (CDF), que entrena modelo, particularmente control-R-32B, para ajustar efectivamente el esfuerzo de razonamiento durante el tiempo de prueba. Los resultados experimentales en puntos de referencia como AIME2024 y Math500 demuestran que nuestro enfoque logra un rendimiento de vanguardia en la escala 32B al tiempo que permite un proceso de razonamiento COT largo controlable (L-COT). En general, este trabajo introduce un paradigma efectivo para el razonamiento de escala de tiempo de prueba controlable.

Publicado Originalme en rss.arxiv.org El 2 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

$ Agente^2 $: un agente generador-agente marco para la automatización de aprendizaje de refuerzo

FlashInfer-Bench: Construyendo el círculo virtuoso para sistemas LLM impulsados ​​por IA

Minimizar la distorsión de incrustación hiperbólica con la reestructuración de jerarquía guiada por LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

FlashInfer-Bench: Construyendo el círculo virtuoso para sistemas LLM impulsados por IA