Reasonbridge: transferencia de razonamiento eficiente de los modelos de lenguaje cerrado a de código abierto

Resumen: Los avances recientes en modelos de lenguaje grande (LLM) han revelado una brecha de rendimiento significativa entre los modelos de código cerrado y de código abierto, particularmente en tareas que requieren razonamiento complejo e instrucción precisa. Este artículo presenta Rauualbridge, una metodología que transfiere eficientemente las capacidades de razonamiento de potentes modelos de código cerrado a modelos de código abierto a través de un nuevo marco de destilación de conocimiento jerárquico. Desarrollamos un conjunto de datos a medida que 1k con solo 1,000 rastros de razonamiento cuidadosamente curados que enfatizan la dificultad, la diversidad y la calidad. Estas trazas se filtran a través de múltiples dominios utilizando un algoritmo de selección de criterios múltiples estructurados. Nuestro enfoque de aprendizaje de transferencia incorpora: (1) un proceso de destilación jerárquica que captura tanto la abstracción estratégica como los patrones de implementación táctica, (2) un escaso arquitectura del adaptador centrada en el razonamiento que requiere solo 0.3% de parámetros capacitables adicionales, y (3) un mecanismo de escalado de tiempo de prueba de prueba utilizando intervenciones de infoferencia guiadas. Las evaluaciones exhaustivas demuestran que MotivoBridge mejora las capacidades de razonamiento en modelos de código abierto hasta en un 23% en tareas de referencia, reduciendo significativamente la brecha con los modelos de código cerrado. En particular, el QWen2.5-14b mejorado supera a Claude-Sonnet3.5 en Math500 y coincide con su rendimiento en los problemas de AIME a nivel de competencia. Nuestra metodología se generaliza de manera efectiva a través de diversos dominios de razonamiento y arquitecturas de modelos, estableciendo un enfoque de eficiencia de muestra para la mejora del razonamiento para la instrucción siguiente.

Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Evaluación de estrategias para sintetizar notas clínicas para IA médica multimodal

La descarga: el mito de la AGI y la competencia de IA entre Estados Unidos y China

La descarga: la madriguera del efecto Mandela y la promesa de una vacuna para los resfriados

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido