¿Pueden los modelos de idiomas grandes desarrollar un razonamiento estratégico? Insights posteriores al entrenamiento de Learning Chess

Resumen: Si bien el aprendizaje de refuerzo (RL) para modelos de idiomas grandes (LLM) ha mostrado prometedor en el razonamiento matemático, el razonamiento estratégico para LLM que usa RL permanece en gran medida inexplorado. Investigamos si los LLM pueden desarrollar capacidades de razonamiento estratégico a través de RL en ajedrez. Con este fin, aprovechamos una red de valor de acción pretrada con ajedrez para proporcionar una recompensa densa en la calidad de movimiento de salida de la LLM, que puede verse como una forma de destilación de conocimiento. Nuestros experimentos muestran que nuestras recompensas densas basadas en la destilación a menudo superan a las recompensas binarias dispersas. Sin embargo, sorprendentemente, todos los modelos se ponen muy por debajo de los niveles de expertos. Proporcionamos ablaciones SFT y RL sobre el entrenamiento de razonamiento de ajedrez y encontramos evidencia de que esta limitación proviene de un déficit en la comprensión interna de los modelos previos a la aparición del ajedrez, un déficit que RL por sí solo puede no ser capaz de superar por completo.

Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Ericsson y Bell Canada Test ANATATION ALTACIÓN ANATIVO ANTIVO PARA BOOST Velocidad y eficiencia de la red

Cuando la ayuda del desarrollador se convierte en deuda de seguridad: un análisis sistemático de comportamientos inseguros en los agentes de codificación de LLM

El cronograma de la conferencia de Linux Foundation para la Conferencia de código abierto de América del Norte 2024

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido