Scout: Enseñar modelos de idiomas previamente capacitados para mejorar el razonamiento a través de la cadena de pensamiento de flujo

Resumen: La cadena de pensamiento (COT) la provisión mejora el rendimiento de razonamiento de los modelos de idiomas grandes (LLM) al alentar el pensamiento paso a paso. Sin embargo, los métodos basados en COT dependen de los pasos de razonamiento intermedio, lo que limita la escalabilidad y la generalización. El trabajo reciente explora el razonamiento recursivo, donde las LLM reutilizan las capas internas a través de las iteraciones para refinar representaciones latentes sin una supervisión de cuna explícita. Si bien son prometedores, estos enfoques a menudo requieren un pretrete costoso y carecen de un marco de principios sobre cómo el razonamiento debería evolucionar a través de las iteraciones. Abordamos esta brecha al introducir la cadena de pensamiento de flujo (flujo cot), un paradigma de razonamiento que modela la inferencia recursiva como una trayectoria progresiva de los estados cognitivos latentes. Flow COT enmarca cada iteración como un razonamiento de profundidad cognitivo distinto de la etapa cognitiva a través de las iteraciones sin depender de la supervisión manual. Para realizar esto, proponemos Scout (optimización cognitiva paso a paso usando maestros), un marco de sintonización fino liviano que permite un razonamiento de estilo de cuna de flujo sin la necesidad de prisión previa. Scout utiliza la destilación progresiva para alinear cada iteración con un maestro de capacidad apropiada, y un módulo retrospectivo basado en atención cruzada que integra salidas de iteraciones anteriores al tiempo que preserva los modelos del flujo de cálculo original. Los experimentos en ocho puntos de referencia de razonamiento muestran que Scout mejora constantemente tanto la precisión como la calidad de la explicación, logrando hasta 1.8% de ganancias bajo ajuste fino. Los análisis cualitativos revelan además que Scout permite un razonamiento progresivamente más profundo entre las iteraciones que refinan tanto la formación de creencias como la granularidad de la explicación. Estos resultados no solo validan la efectividad de Scout, sino que también demuestran la viabilidad práctica de la cuna de flujo como un marco escalable para mejorar el razonamiento en LLM.

Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Alineación de modelos de lenguaje grandes con reglas de procedimiento: un estímulo de seguimiento de estado autorregresivo para el comercio dentro del juego

La era de la persuasión de la IA en las elecciones está a punto de comenzar

Los satélites Leo en órbita se disparan para alcanzar 42,600 satélites para 2032 en medio de crecientes asociaciones y competencia

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido