En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Razonamiento de ajedrez fundamentado en modelos lingüísticos mediante destilación maestra

Razonamiento de ajedrez fundamentado en modelos lingüísticos mediante destilación maestra

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje a menudo carecen de capacidades de razonamiento fundamentadas en dominios especializados donde los datos de entrenamiento son escasos pero los sistemas personalizados sobresalen. Introducimos un marco general para destilar el razonamiento de sistemas expertos en explicaciones de cadena de pensamiento en lenguaje natural, permitiendo que los modelos compactos adquieran experiencia en el dominio y la capacidad de generar explicaciones fieles y fundamentadas. En lugar de resumir solo los resultados finales, capturamos el proceso de razonamiento completo, transformando cálculos expertos opacos en explicaciones transparentes, paso a paso. Demostramos este enfoque en el ajedrez, un dominio de razonamiento canónico donde los modelos de lenguaje continúan teniendo un rendimiento inferior. Nuestro modelo de parámetros 4B, C1, avanza desde una base cercana a cero hasta una precisión del 48,1%, superando a todos los modelos de código abierto y a la mayoría de los sistemas propietarios de vanguardia. En particular, C1 supera a su maestro de destilación y genera soluciones en dos órdenes de magnitud menos de tokens que las líneas de base. A diferencia de los enfoques anteriores de ajedrez neuronal que predicen sólo los mejores movimientos, C1 genera soluciones explicables que revelan un razonamiento estratégico. Nuestro canal combina el aprendizaje de refuerzo y ajuste supervisado con muestreo de datos temáticos equilibrados para una cobertura táctica integral. Master Distillation demuestra cómo inyectar conocimiento de nivel experto en modelos compactos para dominios poco optimizados, ofreciendo una receta para desbloquear RLVR donde los LLM carecen de capacidades básicas suficientes.

Publicado originalmente en export.arxiv.org el 23 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web