Pensar en largo, pero en corto: escalamiento secuencial estable en tiempo de prueba para modelos de razonamiento grandes

Resumen: El escalamiento secuencial del tiempo de prueba es un método prometedor y sin entrenamiento para mejorar la precisión del modelo de razonamiento a gran escala, pero tal como se implementa actualmente, se han observado limitaciones significativas. Inducir a los modelos a pensar durante más tiempo puede aumentar su precisión, pero a medida que se amplía aún más la duración del razonamiento, también se ha demostrado que resulta en una degradación de la precisión y en la inestabilidad del modelo. Este trabajo presenta un novedoso método de escalado secuencial en tiempo de prueba, Min-Seek, que mejora significativamente la precisión del modelo en una amplia gama de pensamientos inducidos, estabilizando la precisión del escalado secuencial y eliminando la necesidad de ajustar la longitud del razonamiento. Más allá de mejorar la precisión del modelo en una variedad de tareas de razonamiento, nuestro método es inherentemente eficiente, ya que solo los pares KV de un pensamiento inducido adicional se mantienen en la caché KV durante el razonamiento. Con un caché KV personalizado que almacena claves sin incrustaciones de posición, codificándolas dinámicamente de forma contigua antes de cada nuevo pensamiento generado, nuestro método puede continuar razonando mucho más allá de la longitud de contexto máxima de un modelo y, en condiciones leves, tiene una complejidad computacional lineal.

Publicado originalmente en export.arxiv.org el 15 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Bosch Bytes Atenas 2025 establece el tono para futuros eventos de Bosch SDS en Europa

Evaluar como acción: recompensas de proceso autoevaluadas para agentes de recuperación aumentada

Aprendizaje de refuerzo guiado por LLM: abordar los cuellos de botella de capacitación a través de la modulación de políticas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido