Resumen: Los modelos de lenguaje grande (LLM) pueden mejorar el razonamiento en el tiempo de inferencia a través de la escala de tiempo de prueba (TTS), donde se generan múltiples trazas de razonamiento y se selecciona la mejor. El trabajo previo muestra que aumentar el número de muestras k mejora constantemente la precisión. En este artículo, demostramos que esta tendencia no se mantiene indefinidamente: en la gran K, la escala adicional no produce ganancias, y ciertas preguntas difíciles permanecen sin resolver, independientemente del número de rastros. Curiosamente, encontramos que diferentes temperaturas de muestreo resuelven diferentes subconjuntos de problemas, lo que implica que la escala de temperatura única explora solo parte del potencial de un modelo. Por lo tanto, proponemos la escala a lo largo de la dimensión de la temperatura, que amplía el límite de razonamiento de los LLM. Promediado sobre QWEN3 (0.6B, 1.7B, 4B, 8B) y cinco puntos de referencia de razonamiento representativo (AIME 2024/2025, MATH500, LivecodeBench, Hi-Tom), la escalado de temperatura produce 7.3 puntos adicionales sobre TT de temperatura única. La escala de temperatura también permite a los modelos base alcanzar el rendimiento comparable al aprendizaje de refuerzo (RL) de las contrapartes, sin post-entrenamiento adicional. Además, proporcionamos un análisis exhaustivo de este fenómeno y diseñamos un método de votación de múltiples temperaturas que reduce la sobrecarga de la escala de temperatura. En general, nuestros hallazgos sugieren que TTS es más potente de lo que se pensaba anteriormente, y que la escalado de temperatura ofrece una forma simple y efectiva de desbloquear el potencial latente de los modelos base.
Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original