En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿El razonamiento matemático mejora las capacidades generales de LLM? Comprender la transferibilidad del razonamiento de LLM

¿El razonamiento matemático mejora las capacidades generales de LLM? Comprender la transferibilidad del razonamiento de LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El razonamiento matemático se ha convertido en el hijo del progreso en los modelos de lenguaje grande (LLMS), con nuevos modelos que superan rápidamente el rendimiento a nivel humano en puntos de referencia como las matemáticas y el AIME. But as math leaderboards improve week by week, it is worth asking: do these gains reflect broader problem-solving ability or just narrow overfitting? Para responder a esta pregunta, evaluamos más de 20 modelos sintonizados con razonamiento de peso abierto en un amplio conjunto de tareas, incluyendo matemáticas, QA científico, planificación de agentes, codificación y seguimiento de instrucciones estándar. Sorprendentemente, encontramos que la mayoría de los modelos que tienen éxito en las matemáticas no pueden transferir sus ganancias a otros dominios. Para estudiar rigurosamente este fenómeno, realizamos experimentos controlados en modelos QWEN3-14B utilizando datos de solo matemáticas pero diferentes métodos de ajuste. Encontramos que los modelos ajustados por aprendizaje de refuerzo (RL) se generalizan bien en todos los dominios, mientras que los modelos supervisados ​​de ajuste fino (SFT) a menudo olvidan las capacidades generales. La representación del espacio latente y los análisis de cambio de distribución del espacio-espacio revelan que SFT induce una representación sustancial y la deriva de salida, mientras que RL conserva la estructura del dominio general. Nuestros resultados sugieren la necesidad de repensar las recetas estándar posteriores a la capacitación, particularmente la dependencia de los datos destilados por SFT para avanzar en los modelos de razonamiento.

Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web