Resumen: Grandes modelos de razonamiento (LRMS) han exhibido la capacidad de mejorar el rendimiento del razonamiento a través de la escala interna del tiempo de prueba. Sobre la base de esto, una dirección prometedora es escalar un tiempo de cálculo de tiempo de prueba para desbloquear capacidades de razonamiento aún mayores. Sin embargo, a medida que presionamos estos límites de escala, comprender sistemáticamente los límites prácticos y lograr la asignación óptima de recursos se convierte en un desafío crítico. En este artículo, investigamos la escala Pareto de la escala de tiempo de prueba e introducimos el modelo de rendimiento de escala de tiempo de prueba (TTSPM). Teóricamente analizamos dos paradigmas fundamentales para tal escala extendida, escala paralela y escala secuencial, desde una perspectiva de modelado probabilístico. Nuestra contribución principal es la derivación del punto de saturación en el presupuesto de escala para ambas estrategias, identificando umbrales más allá de los cuales el cálculo adicional produce rendimientos decrecientes. Sorprendentemente, a pesar de sus distintos mecanismos, ambos paradigmas convergen con una estructura matemática unificada en sus límites superiores. Validamos empíricamente nuestros hallazgos teóricos sobre los puntos de referencia de razonamiento desafiantes, incluidos AIME, MATH-500 y GPQA, demostrando la utilidad práctica de estos límites para la asignación de recursos de tiempo de prueba. Esperamos que este trabajo proporcione información sobre las compensaciones de costo-beneficio de la escala de tiempo de prueba, guiando el desarrollo de estrategias de inferencia más eficientes en recursos para grandes modelos de razonamiento.
Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original