Sobre el papel del muestreo de temperatura en el escala de tiempo de prueba

Resumen: Los modelos de lenguaje grande (LLM) pueden mejorar el razonamiento en el tiempo de inferencia a través de la escala de tiempo de prueba (TTS), donde se generan múltiples trazas de razonamiento y se selecciona la mejor. El trabajo previo muestra que aumentar el número de muestras k mejora constantemente la precisión. En este artículo, demostramos que esta tendencia no se mantiene indefinidamente: en la gran K, la escala adicional no produce ganancias, y ciertas preguntas difíciles permanecen sin resolver, independientemente del número de rastros. Curiosamente, encontramos que diferentes temperaturas de muestreo resuelven diferentes subconjuntos de problemas, lo que implica que la escala de temperatura única explora solo parte del potencial de un modelo. Por lo tanto, proponemos la escala a lo largo de la dimensión de la temperatura, que amplía el límite de razonamiento de los LLM. Promediado sobre QWEN3 (0.6B, 1.7B, 4B, 8B) y cinco puntos de referencia de razonamiento representativo (AIME 2024/2025, MATH500, LivecodeBench, Hi-Tom), la escalado de temperatura produce 7.3 puntos adicionales sobre TT de temperatura única. La escala de temperatura también permite a los modelos base alcanzar el rendimiento comparable al aprendizaje de refuerzo (RL) de las contrapartes, sin post-entrenamiento adicional. Además, proporcionamos un análisis exhaustivo de este fenómeno y diseñamos un método de votación de múltiples temperaturas que reduce la sobrecarga de la escala de temperatura. En general, nuestros hallazgos sugieren que TTS es más potente de lo que se pensaba anteriormente, y que la escalado de temperatura ofrece una forma simple y efectiva de desbloquear el potencial latente de los modelos base.

Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

LF Networking y OpenAirinterface Software Alliance (OSA) colaboran para anunciar a Duranta para avanzar en el código abierto ejecutando innovación

Elección axiomática y la paradoja de evaluación de la decisión

FINOS lanza Fluxnova con Fidelity Investments, NatWest Group, Deutsche Bank y Capital One: una plataforma de orquestación de código abierto para escalar la automatización de procesos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido