En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Repensar el papel de provocar estrategias en la escala de tiempo de prueba de LLM: una perspectiva de la teoría de la probabilidad

Repensar el papel de provocar estrategias en la escala de tiempo de prueba de LLM: una perspectiva de la teoría de la probabilidad

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Recientemente, la escala de la prueba de tiempo de cálculo en modelos de idiomas grandes (LLM) ha atraído una amplia atención. Sin embargo, ha habido una investigación limitada de cómo se desempeñan varias estrategias de impulso de razonamiento como escala. En este artículo, nos centramos en un entorno de escala estándar y realista: la mayoría de votación. Realizamos sistemáticamente experimentos en 6 LLMS $ Times $ 8 Estrategias de solicitud $ Times $ 6 puntos de referencia. Los resultados del experimento muestran consistentemente que a medida que aumenta el tiempo de muestreo y el aumento de los gastos generales computacionales, las estrategias complicadas de impulso con un rendimiento inicial superior se encuentran gradualmente detrás de la simple cadena de pensamiento. Analizamos este fenómeno y proporcionamos pruebas teóricas. Además, proponemos un método de acuerdo con la teoría de la probabilidad para predecir de manera rápida y precisa el rendimiento de escala y seleccionar la mejor estrategia en grandes tiempos de muestreo sin una inferencia adicional intensiva en recursos en la práctica. Puede servir como la ley de escala del tiempo de prueba para la votación mayoritaria. Además, presentamos dos formas derivadas de nuestro análisis teórico para mejorar significativamente el rendimiento de escala. Esperamos que nuestra investigación pueda promover reexaminar el papel de la solicitud complicada, desatar el potencial de estrategias de impulso simples y proporcionar nuevas ideas para mejorar el rendimiento de escala del tiempo de prueba.

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web