Resumen: Monte Carlo Tree Search (MCTS) es un método eficaz de escalamiento informático en tiempo de prueba (TTCS) para mejorar el rendimiento de razonamiento de modelos de lenguaje grandes, pero su tiempo de ejecución altamente variable conduce a una latencia de cola larga severa en la práctica. Las optimizaciones existentes, como la salida anticipada positiva, reducen la latencia en casos favorables, pero son menos efectivas cuando la búsqueda continúa sin un progreso significativo. Introducimos una {it salida temprana negativa}, que elimina las trayectorias MCTS improductivas, y un {it mecanismo de impulso adaptativo} que reasigna el cálculo recuperado para reducir la contención de recursos entre búsquedas concurrentes. Integradas en vLLM, estas técnicas reducen sustancialmente la latencia de extremo a extremo de p99 al tiempo que mejoran el rendimiento y mantienen la precisión del razonamiento.
Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original
