Más allá de la imitación de trayectoria: optimización de políticas guiadas por estrategias para el razonamiento de LLM

Resumen: Destilar capacidades de razonamiento de modelos de lenguaje fuertes a modelos débiles generalmente implica imitar trayectorias de solución específicas, transfiriendo efectivamente qué responder en lugar de cómo razonar.

Leer más →

Comentarios desactivados en Más allá de la imitación de trayectoria: optimización de políticas guiadas por estrategias para el razonamiento de LLM

Fin del contenido

No hay más páginas por cargar