En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Más allá de la imitación de trayectoria: optimización de políticas guiadas por estrategias para el razonamiento de LLM

Más allá de la imitación de trayectoria: optimización de políticas guiadas por estrategias para el razonamiento de LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Destilar capacidades de razonamiento de modelos de lenguaje fuertes a modelos débiles generalmente implica imitar trayectorias de solución específicas, transfiriendo efectivamente qué responder en lugar de cómo razonar. Esta imitación a nivel de trayectoria fomenta la memorización de pasos específicos de cada caso en lugar de la adquisición de habilidades transferibles para la resolución de problemas, lo que limita la generalización a problemas nuevos. Proponemos la optimización de políticas guiada por estrategias (SGPO), que reemplaza la imitación de trayectoria a nivel de instancia con una destilación de estrategias reutilizable. SGPO extrae descripciones de estrategias estructuradas a partir de respuestas de modelos sólidos y, para cada problema, construye trayectorias tanto autónomas como guiadas por estrategias para permitir la comparación directa del comportamiento del modelo con y sin orientación estratégica. Luego, el marco aborda dos preguntas clave. Para saber cómo destilarlo, un objetivo de KL adelantado a nivel simbólico transfiere selectivamente el cambio distributivo inducido por el condicionamiento estratégico a la política no guiada, con restricciones próximas que garantizan la estabilidad. Para saber cuándo destilar, la ponderación adaptativa a nivel de instancia fortalece la orientación cuando la exploración autónoma se queda corta y la reduce a medida que crece la propia competencia del modelo. Los experimentos con cuatro puntos de referencia matemáticos en dos familias de modelos muestran que SGPO supera consistentemente las líneas de base de SFT, RL dentro de la política y de políticas híbridas, mejorando el puntaje promedio en 2,2 puntos con respecto a la línea de base más sólida en Qwen2.5-7B-Instruct. El análisis revela que el objetivo KL directo proporciona una señal de destilación inherentemente selectiva que supera la imitación de trayectoria directa, y que la destilación estratégica exhibe una escala complementaria con la capacidad del modelo base.

Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web