Resumen: El escalamiento secuencial del tiempo de prueba es un método prometedor y sin entrenamiento para mejorar la precisión del modelo de razonamiento a gran escala, pero tal como se implementa actualmente, se han observado limitaciones significativas. Inducir a los modelos a pensar durante más tiempo puede aumentar su precisión, pero a medida que se amplía aún más la duración del razonamiento, también se ha demostrado que resulta en una degradación de la precisión y en la inestabilidad del modelo. Este trabajo presenta un novedoso método de escalado secuencial en tiempo de prueba, Min-Seek, que mejora significativamente la precisión del modelo en una amplia gama de pensamientos inducidos, estabilizando la precisión del escalado secuencial y eliminando la necesidad de ajustar la longitud del razonamiento. Más allá de mejorar la precisión del modelo en una variedad de tareas de razonamiento, nuestro método es inherentemente eficiente, ya que solo los pares KV de un pensamiento inducido adicional se mantienen en la caché KV durante el razonamiento. Con un caché KV personalizado que almacena claves sin incrustaciones de posición, codificándolas dinámicamente de forma contigua antes de cada nuevo pensamiento generado, nuestro método puede continuar razonando mucho más allá de la longitud de contexto máxima de un modelo y, en condiciones leves, tiene una complejidad computacional lineal.
Publicado originalmente en export.arxiv.org el 15 de enero de 2026.
Ver fuente original
