Resumen: Grandes modelos de razonamiento (LRMS) se destacan en tareas de razonamiento complejos, pero generalmente generan largas cadenas de pensamiento secuenciales, lo que resulta en largos tiempos de inferencia antes de llegar a la respuesta final. Para abordar este desafío, presentamos Sprint, un nuevo marco de tiempo posterior a la capacitación e inferencia diseñado para permitir que LRMS identifique y exploten dinámicamente oportunidades para la paralelización durante su proceso de razonamiento. Sprint incorpora una innovadora canalización de curación de datos que reorganiza las trayectorias de razonamiento del lenguaje natural en rondas estructuradas de planificación de horizonte largo y ejecución paralela. Al ajustar los LRM en una pequeña cantidad de datos curados, los modelos aprenden a identificar dinámicamente subtareas independientes dentro de los procesos de razonamiento extendidos y ejecutarlos efectivamente en paralelo. A través de evaluaciones extensas, mostramos que los modelos ajustados con el marco de Sprint coinciden con el rendimiento de los modelos de razonamiento en dominios complejos como las matemáticas mientras generan hasta ~ 39% menos tokens secuenciales en problemas que requieren más de 8000 tokens de salida. Finalmente, observamos resultados consistentes transferidos a dos tareas fuera de distribución de GPQA y cuenta regresiva con una reducción de hasta 45% y 65% en los tokens secuenciales promedio para trayectorias de razonamiento más largas, al tiempo que logran el rendimiento del modelo de razonamiento ajustado.
Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original