Resumen:¿Por qué los modelos de lenguaje pensante como DeepSeek R1 superan a sus homólogos básicos? A pesar de las constantes mejoras en el rendimiento, aún no está claro hasta qué punto los modelos de pensamiento aprenden capacidades de razonamiento completamente nuevas o reutilizan los modelos base preexistentes. En este trabajo, proponemos un modelo híbrido en el que activamos mecanismos de razonamiento en modelos base en el momento adecuado para provocar cadenas de razonamiento a nivel de modelo de pensamiento, lo que implica que los modelos de pensamiento explotan capacidades ya existentes. Para fundamentar nuestro análisis, introducimos un enfoque ascendente y no supervisado para descubrir comportamientos de razonamiento interpretables por humanos en modelos de pensamiento. Este enfoque proporciona un método imparcial para descubrir comportamientos de razonamiento sin imponer suposiciones manuales o derivadas de LLM. En tres modelos básicos y cuatro de pensamiento, utilizando GSM8K y MATH500, nuestro modelo híbrido recupera hasta el 91 % de la brecha de rendimiento con respecto a los modelos de pensamiento sin ninguna actualización de peso, mientras maneja solo el 12 % de los tokens. Concretamente, nuestra configuración empírica proporciona una manera simple y causal de probar la efectividad de los mecanismos de razonamiento existentes en modelos base invocándolos directamente y midiendo el desempeño de la tarea resultante. En términos más generales, estos resultados replantean nuestra comprensión de cómo se entrenan los modelos de pensamiento: el pre-entrenamiento es cuando los modelos adquieren la mayoría de sus mecanismos de razonamiento, y el post-entrenamiento enseña el despliegue eficiente de estos mecanismos en el momento adecuado, lo que permite el uso eficiente de su cálculo del tiempo de inferencia.
Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original
