Razonamiento de ajedrez fundamentado en modelos lingüísticos mediante destilación maestra

Resumen: Los modelos de lenguaje a menudo carecen de capacidades de razonamiento fundamentadas en dominios especializados donde los datos de entrenamiento son escasos pero los sistemas personalizados sobresalen. Introducimos un marco general para destilar el razonamiento de sistemas expertos en explicaciones de cadena de pensamiento en lenguaje natural, permitiendo que los modelos compactos adquieran experiencia en el dominio y la capacidad de generar explicaciones fieles y fundamentadas. En lugar de resumir solo los resultados finales, capturamos el proceso de razonamiento completo, transformando cálculos expertos opacos en explicaciones transparentes, paso a paso. Demostramos este enfoque en el ajedrez, un dominio de razonamiento canónico donde los modelos de lenguaje continúan teniendo un rendimiento inferior. Nuestro modelo de parámetros 4B, C1, avanza desde una base cercana a cero hasta una precisión del 48,1%, superando a todos los modelos de código abierto y a la mayoría de los sistemas propietarios de vanguardia. En particular, C1 supera a su maestro de destilación y genera soluciones en dos órdenes de magnitud menos de tokens que las líneas de base. A diferencia de los enfoques anteriores de ajedrez neuronal que predicen sólo los mejores movimientos, C1 genera soluciones explicables que revelan un razonamiento estratégico. Nuestro canal combina el aprendizaje de refuerzo y ajuste supervisado con muestreo de datos temáticos equilibrados para una cobertura táctica integral. Master Distillation demuestra cómo inyectar conocimiento de nivel experto en modelos compactos para dominios poco optimizados, ofreciendo una receta para desbloquear RLVR donde los LLM carecen de capacidades básicas suficientes.

Publicado originalmente en export.arxiv.org el 23 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Qué sigue para la IA y las matemáticas?

PINTURA: Gemelos neuronales paralelos en el tiempo para la reconstrucción del sistema dinámico

La descarga: mitos de longevidad y robots de limpieza de alcantarillado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido