¿El razonamiento matemático mejora las capacidades generales de LLM? Comprender la transferibilidad del razonamiento de LLM

Resumen: El razonamiento matemático se ha convertido en el hijo del progreso en los modelos de lenguaje grande (LLMS), con nuevos modelos que superan rápidamente el rendimiento a nivel humano en puntos de referencia como las matemáticas y el AIME. But as math leaderboards improve week by week, it is worth asking: do these gains reflect broader problem-solving ability or just narrow overfitting? Para responder a esta pregunta, evaluamos más de 20 modelos sintonizados con razonamiento de peso abierto en un amplio conjunto de tareas, incluyendo matemáticas, QA científico, planificación de agentes, codificación y seguimiento de instrucciones estándar. Sorprendentemente, encontramos que la mayoría de los modelos que tienen éxito en las matemáticas no pueden transferir sus ganancias a otros dominios. Para estudiar rigurosamente este fenómeno, realizamos experimentos controlados en modelos QWEN3-14B utilizando datos de solo matemáticas pero diferentes métodos de ajuste. Encontramos que los modelos ajustados por aprendizaje de refuerzo (RL) se generalizan bien en todos los dominios, mientras que los modelos supervisados de ajuste fino (SFT) a menudo olvidan las capacidades generales. La representación del espacio latente y los análisis de cambio de distribución del espacio-espacio revelan que SFT induce una representación sustancial y la deriva de salida, mientras que RL conserva la estructura del dominio general. Nuestros resultados sugieren la necesidad de repensar las recetas estándar posteriores a la capacitación, particularmente la dependencia de los datos destilados por SFT para avanzar en los modelos de razonamiento.

Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

SENSECF: contrafactuales prometidos por LLM para la intervención y el aumento de datos del sensor

Los satélites Leo en órbita se disparan para alcanzar 42,600 satélites para 2032 en medio de crecientes asociaciones y competencia

LLM-As-A-Fuzzy-Judge: ajuste de modelos de lenguaje grande como juez de evaluación clínica con lógica difusa

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido