Pensamiento paralelo, respuesta secuencial: unir a NAR y AR para un razonamiento eficiente

Resumen: Estudiamos tareas de razonamiento a través de un marco que integra modelos de lenguaje autoregresivo (AR) y no autorregresivo (NAR). Los modelos AR, que generan texto secuencialmente, sobresalen en la producción de salidas coherentes, pero a menudo sufren una inferencia lenta, particularmente en dominios intensivos de razonamiento como las matemáticas y el código, donde se requieren largas cadenas de pensamiento. Por el contrario, los modelos NAR, como los modelos de difusión discretos, permiten la generación paralela y ofrecen aceleraciones sustanciales, aunque típicamente a costa de una calidad de salida reducida. Para abordar estas limitaciones, presentamos un nuevo paradigma en el que un modelo NAR produce eficientemente trazas de razonamiento intermedias, que posteriormente guían un modelo AR para ofrecer respuestas finales precisas. Los experimentos demuestran que nuestro enfoque produce mejoras significativas del 26% sobre las líneas de base fuertes al tiempo que reduce sustancialmente el costo de inferencia.

Publicado Originalme en export.arxiv.org El 25 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Más allá de las preferencias ordinales: por qué la alineación necesita retroalimentación humana cardinal

Mind the Goal: Evaluación orientada a objetivos y con eficiencia de datos de agentes conversacionales y chatbots utilizando modelos docentes

Mejora de la cadena de pensamiento para el razonamiento lógico mediante una intervención consciente de la atención

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido