Resumen: El razonamiento moderno de LLM se basa en un amplio cálculo del tiempo de prueba, impulsado por el entrenamiento de modelo interno y la orquestación de agente externa. Sin embargo, esta sinergia a menudo es ineficiente, ya que la verbosidad del modelo y la mala instrucción que sigue conducen al cálculo desperdiciado. Analizamos esta compensación de costo de capacidad e introducimos un flujo de trabajo de razonamiento optimizado ( Cepo) que empodera a los modelos de código abierto más pequeños para superar a los modelos varias veces. Estaremos de código abierto este flujo de trabajo para permitir más investigaciones. Nuestro trabajo demuestra un camino claro hacia los marcos de orquestación conjuntos de combate con las capacidades de modelo subyacente para desbloquear un poderoso razonamiento en modelos de tamaño pequeño a mediano.
Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original