Más allá de la imitación de trayectoria: optimización de políticas guiadas por estrategias para el razonamiento de LLM

Resumen: Destilar capacidades de razonamiento de modelos de lenguaje fuertes a modelos débiles generalmente implica imitar trayectorias de solución específicas, transfiriendo efectivamente qué responder en lugar de cómo razonar. Esta imitación a nivel de trayectoria fomenta la memorización de pasos específicos de cada caso en lugar de la adquisición de habilidades transferibles para la resolución de problemas, lo que limita la generalización a problemas nuevos. Proponemos la optimización de políticas guiada por estrategias (SGPO), que reemplaza la imitación de trayectoria a nivel de instancia con una destilación de estrategias reutilizable. SGPO extrae descripciones de estrategias estructuradas a partir de respuestas de modelos sólidos y, para cada problema, construye trayectorias tanto autónomas como guiadas por estrategias para permitir la comparación directa del comportamiento del modelo con y sin orientación estratégica. Luego, el marco aborda dos preguntas clave. Para saber cómo destilarlo, un objetivo de KL adelantado a nivel simbólico transfiere selectivamente el cambio distributivo inducido por el condicionamiento estratégico a la política no guiada, con restricciones próximas que garantizan la estabilidad. Para saber cuándo destilar, la ponderación adaptativa a nivel de instancia fortalece la orientación cuando la exploración autónoma se queda corta y la reduce a medida que crece la propia competencia del modelo. Los experimentos con cuatro puntos de referencia matemáticos en dos familias de modelos muestran que SGPO supera consistentemente las líneas de base de SFT, RL dentro de la política y de políticas híbridas, mejorando el puntaje promedio en 2,2 puntos con respecto a la línea de base más sólida en Qwen2.5-7B-Instruct. El análisis revela que el objetivo KL directo proporciona una señal de destilación inherentemente selectiva que supera la imitación de trayectoria directa, y que la destilación estratégica exhibe una escala complementaria con la capacidad del modelo base.

Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Preferencia de la población PREPRESIONAL Aprendizaje de la retroalimentación humana: un enfoque axiomático

Explorando las transformaciones de imagen derivadas de las variables de la mirada para los ojos para el diagnóstico de autismo progresivo

AGENTMISALINGMENT: Medir la propensión al comportamiento desalineado en agentes basados ​​en LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

AGENTMISALINGMENT: Medir la propensión al comportamiento desalineado en agentes basados en LLM