En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Pueden los modelos de idiomas grandes desarrollar un razonamiento estratégico? Insights posteriores al entrenamiento de Learning Chess

¿Pueden los modelos de idiomas grandes desarrollar un razonamiento estratégico? Insights posteriores al entrenamiento de Learning Chess

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Si bien el aprendizaje de refuerzo (RL) para modelos de idiomas grandes (LLM) ha mostrado prometedor en el razonamiento matemático, el razonamiento estratégico para LLM que usa RL permanece en gran medida inexplorado. Investigamos si los LLM pueden desarrollar capacidades de razonamiento estratégico a través de RL en ajedrez. Con este fin, aprovechamos una red de valor de acción pretrada con ajedrez para proporcionar una recompensa densa en la calidad de movimiento de salida de la LLM, que puede verse como una forma de destilación de conocimiento. Nuestros experimentos muestran que nuestras recompensas densas basadas en la destilación a menudo superan a las recompensas binarias dispersas. Sin embargo, sorprendentemente, todos los modelos se ponen muy por debajo de los niveles de expertos. Proporcionamos ablaciones SFT y RL sobre el entrenamiento de razonamiento de ajedrez y encontramos evidencia de que esta limitación proviene de un déficit en la comprensión interna de los modelos previos a la aparición del ajedrez, un déficit que RL por sí solo puede no ser capaz de superar por completo.

Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web