En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Reasonbridge: transferencia de razonamiento eficiente de los modelos de lenguaje cerrado a de código abierto

Reasonbridge: transferencia de razonamiento eficiente de los modelos de lenguaje cerrado a de código abierto

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los avances recientes en modelos de lenguaje grande (LLM) han revelado una brecha de rendimiento significativa entre los modelos de código cerrado y de código abierto, particularmente en tareas que requieren razonamiento complejo e instrucción precisa. Este artículo presenta Rauualbridge, una metodología que transfiere eficientemente las capacidades de razonamiento de potentes modelos de código cerrado a modelos de código abierto a través de un nuevo marco de destilación de conocimiento jerárquico. Desarrollamos un conjunto de datos a medida que 1k con solo 1,000 rastros de razonamiento cuidadosamente curados que enfatizan la dificultad, la diversidad y la calidad. Estas trazas se filtran a través de múltiples dominios utilizando un algoritmo de selección de criterios múltiples estructurados. Nuestro enfoque de aprendizaje de transferencia incorpora: (1) un proceso de destilación jerárquica que captura tanto la abstracción estratégica como los patrones de implementación táctica, (2) un escaso arquitectura del adaptador centrada en el razonamiento que requiere solo 0.3% de parámetros capacitables adicionales, y (3) un mecanismo de escalado de tiempo de prueba de prueba utilizando intervenciones de infoferencia guiadas. Las evaluaciones exhaustivas demuestran que MotivoBridge mejora las capacidades de razonamiento en modelos de código abierto hasta en un 23% en tareas de referencia, reduciendo significativamente la brecha con los modelos de código cerrado. En particular, el QWen2.5-14b mejorado supera a Claude-Sonnet3.5 en Math500 y coincide con su rendimiento en los problemas de AIME a nivel de competencia. Nuestra metodología se generaliza de manera efectiva a través de diversos dominios de razonamiento y arquitecturas de modelos, estableciendo un enfoque de eficiencia de muestra para la mejora del razonamiento para la instrucción siguiente.

Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web