Repensar el papel de provocar estrategias en la escala de tiempo de prueba de LLM: una perspectiva de la teoría de la probabilidad

Resumen: Recientemente, la escala de la prueba de tiempo de cálculo en modelos de idiomas grandes (LLM) ha atraído una amplia atención. Sin embargo, ha habido una investigación limitada de cómo se desempeñan varias estrategias de impulso de razonamiento como escala. En este artículo, nos centramos en un entorno de escala estándar y realista: la mayoría de votación. Realizamos sistemáticamente experimentos en 6 LLMS $ Times $ 8 Estrategias de solicitud $ Times $ 6 puntos de referencia. Los resultados del experimento muestran consistentemente que a medida que aumenta el tiempo de muestreo y el aumento de los gastos generales computacionales, las estrategias complicadas de impulso con un rendimiento inicial superior se encuentran gradualmente detrás de la simple cadena de pensamiento. Analizamos este fenómeno y proporcionamos pruebas teóricas. Además, proponemos un método de acuerdo con la teoría de la probabilidad para predecir de manera rápida y precisa el rendimiento de escala y seleccionar la mejor estrategia en grandes tiempos de muestreo sin una inferencia adicional intensiva en recursos en la práctica. Puede servir como la ley de escala del tiempo de prueba para la votación mayoritaria. Además, presentamos dos formas derivadas de nuestro análisis teórico para mejorar significativamente el rendimiento de escala. Esperamos que nuestra investigación pueda promover reexaminar el papel de la solicitud complicada, desatar el potencial de estrategias de impulso simples y proporcionar nuevas ideas para mejorar el rendimiento de escala del tiempo de prueba.

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Linux Foundation anuncia el Proyecto de Administrador de paquetes justos para la estabilidad del sistema de gestión de contenido de código abierto

SUMO-MCP: Aprovechando el protocolo de contexto del modelo para la simulación y optimización de tráfico autónomo

Los LLM son introvertidos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido