Resumen: Grandes modelos de razonamiento mejoran la precisión al producir largos rastros de razonamiento, pero esto infla la latencia y el costo, motivando la eficiencia de tiempo de inferencia. Proponemos la recuperación de pensamiento (ROT), que reutiliza el razonamiento previo como pasos compuestos “ pensamiento ‘para guiar nuevos problemas. ROT organiza los pasos en un gráfico de pensamiento con bordes secuenciales y semánticos para habilitar la recuperación rápida de recuperación y recombinación flexible. A la inferencia, Rot retrasa las consultas que se reorganizan los nodos y aplican los dininos de la dinámica de la dinámica. La reutilización reduce la exploración redundante y, por lo tanto, reduce los tokens de salida al tiempo que preserva la precisión. Establece un paradigma escalable para un razonamiento LRM eficiente a través de la construcción de la plantilla dinámica a través de la recuperación.
Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original