En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Control-R: hacia la escala de tiempo de prueba controlable

Control-R: hacia la escala de tiempo de prueba controlable

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Este artículo de documento para abordar los desafíos de los pensamientos subterráneos y el pensamiento demasiado en la larga cadena de pensamiento (COT) razonamiento para grandes modelos de razonamiento (LRMS) al introducir campos de control de razonamiento (RCF), un enfoque de tiempo de prueba novedoso que inyecta señales de control estructuradas para guiar el razonamiento desde una perspectiva de búsqueda de árbol. RCF permite que los modelos ajusten el esfuerzo de razonamiento de acuerdo con las condiciones de control dadas al resolver tareas complejas. Además, presentamos el conjunto de datos Control-R-4K, que consiste en problemas desafiantes anotados con procesos de razonamiento detallados y campos de control correspondientes. Para mejorar aún más el control de razonamiento, proponemos un método de finuga de destilación condicional (CDF), que entrena modelo, particularmente control-R-32B, para ajustar efectivamente el esfuerzo de razonamiento durante el tiempo de prueba. Los resultados experimentales en puntos de referencia como AIME2024 y Math500 demuestran que nuestro enfoque logra un rendimiento de vanguardia en la escala 32B al tiempo que permite un proceso de razonamiento COT largo controlable (L-COT). En general, este trabajo introduce un paradigma efectivo para el razonamiento de escala de tiempo de prueba controlable.

Publicado Originalme en rss.arxiv.org El 2 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web