Resumen: Los modelos de razonamiento recursivo como el modelo de razonamiento jerárquico (HRM) y el modelo diminuto recursivo (TRM) muestran que las redes pequeñas y de peso compartido pueden resolver acertijos NP y con gran cantidad de computación refinando iterativamente estados latentes, pero su entrenamiento generalmente se basa en una supervisión profunda y/o desarrollos largos que aumentan el costo del reloj de pared y pueden sesgar el modelo hacia un comportamiento intermedio codicioso. Presentamos el modelo de tallo recursivo (RSM), un enfoque de razonamiento recursivo que mantiene la columna vertebral de estilo TRM mientras cambia el contrato de entrenamiento para que la red aprenda un operador de transición estable e independiente de la profundidad. RSM separa completamente el historial del estado oculto durante el entrenamiento, trata las primeras iteraciones como pasos de “calentamiento” separados y aplica la pérdida solo en el paso final. Aumentamos aún más la profundidad de recursividad externa $H$ y la profundidad de cálculo interna $L$ de forma independiente y utilizamos un esquema de transición externa estocástica (profundidad estocástica sobre $H$) para mitigar la inestabilidad al aumentar la profundidad. Esto produce dos capacidades clave: (i) un entrenamiento $>20times$ más rápido que TRM y al mismo tiempo mejora la precisión ($aproximadamente 5times$ de reducción en la tasa de error), y (ii) escalamiento en el tiempo de prueba donde la inferencia puede ejecutarse en muchos pasos de refinamiento arbitrarios ($sim 20,000 H_{text{test}} gg 20 H_{text{train}}$), lo que permite un “pensamiento” adicional sin necesidad de volver a entrenar. En Sudoku-Extreme, RSM alcanza una precisión exacta del 97,5% con el cálculo del tiempo de prueba (dentro de ~1 hora de entrenamiento en un solo A100), y en Maze-Hard ($30 times 30$) alcanza una precisión exacta de ~80% en ~40 minutos usando instanciaciones basadas en la atención. Finalmente, debido a que RSM implementa un proceso de asentamiento iterativo, el comportamiento de convergencia proporciona una señal de confiabilidad simple y nativa de la arquitectura: las trayectorias que no se asientan advierten que el modelo no ha alcanzado una solución viable y pueden ser una protección contra las alucinaciones, mientras que los puntos fijos estables se pueden combinar con verificadores de dominio para realizar comprobaciones prácticas de corrección.
Publicado originalmente en export.arxiv.org el 17 de marzo de 2026.
Ver fuente original
