Resumen: Estudiamos tareas de razonamiento a través de un marco que integra modelos de lenguaje autoregresivo (AR) y no autorregresivo (NAR). Los modelos AR, que generan texto secuencialmente, sobresalen en la producción de salidas coherentes, pero a menudo sufren una inferencia lenta, particularmente en dominios intensivos de razonamiento como las matemáticas y el código, donde se requieren largas cadenas de pensamiento. Por el contrario, los modelos NAR, como los modelos de difusión discretos, permiten la generación paralela y ofrecen aceleraciones sustanciales, aunque típicamente a costa de una calidad de salida reducida. Para abordar estas limitaciones, presentamos un nuevo paradigma en el que un modelo NAR produce eficientemente trazas de razonamiento intermedias, que posteriormente guían un modelo AR para ofrecer respuestas finales precisas. Los experimentos demuestran que nuestro enfoque produce mejoras significativas del 26% sobre las líneas de base fuertes al tiempo que reduce sustancialmente el costo de inferencia.
Publicado Originalme en export.arxiv.org El 25 de septiembre de 2025.
Ver Fuente Original
