En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Escalado sobre escala: explorar el tiempo de prueba de escala Pareto en grandes modelos de razonamiento

Escalado sobre escala: explorar el tiempo de prueba de escala Pareto en grandes modelos de razonamiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Grandes modelos de razonamiento (LRMS) han exhibido la capacidad de mejorar el rendimiento del razonamiento a través de la escala interna del tiempo de prueba. Sobre la base de esto, una dirección prometedora es escalar un tiempo de cálculo de tiempo de prueba para desbloquear capacidades de razonamiento aún mayores. Sin embargo, a medida que presionamos estos límites de escala, comprender sistemáticamente los límites prácticos y lograr la asignación óptima de recursos se convierte en un desafío crítico. En este artículo, investigamos la escala Pareto de la escala de tiempo de prueba e introducimos el modelo de rendimiento de escala de tiempo de prueba (TTSPM). Teóricamente analizamos dos paradigmas fundamentales para tal escala extendida, escala paralela y escala secuencial, desde una perspectiva de modelado probabilístico. Nuestra contribución principal es la derivación del punto de saturación en el presupuesto de escala para ambas estrategias, identificando umbrales más allá de los cuales el cálculo adicional produce rendimientos decrecientes. Sorprendentemente, a pesar de sus distintos mecanismos, ambos paradigmas convergen con una estructura matemática unificada en sus límites superiores. Validamos empíricamente nuestros hallazgos teóricos sobre los puntos de referencia de razonamiento desafiantes, incluidos AIME, MATH-500 y GPQA, demostrando la utilidad práctica de estos límites para la asignación de recursos de tiempo de prueba. Esperamos que este trabajo proporcione información sobre las compensaciones de costo-beneficio de la escala de tiempo de prueba, guiando el desarrollo de estrategias de inferencia más eficientes en recursos para grandes modelos de razonamiento.

Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web