En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Programación de su aprendizaje por refuerzo LLM con árboles de razonamiento

Programación de su aprendizaje por refuerzo LLM con árboles de razonamiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El uso del aprendizaje por refuerzo con recompensas verificables (RLVR) para optimizar los modelos de lenguaje grandes (LLM) se puede conceptualizar como una edición progresiva del “árbol de razonamiento” de una consulta. Este proceso implica explorar nodos (tokens) y modificar dinámicamente la política del modelo en cada nodo. Cuando se combina con la programación de datos, este proceso produce mayores ganancias en eficiencia y precisión de los datos. Sin embargo, los métodos de programación de datos RLVR existentes generalmente se basan en métricas basadas en rutas para clasificar las consultas, pasando por alto las estructuras de árbol de razonamiento de estas consultas. En este artículo, presentamos una métrica novedosa, llamada Reasoning Score (r-score), que mide la dificultad de aprendizaje de la consulta en función de la estructura de su árbol de razonamiento. Con base en el puntaje r, proponemos el Programa de árbol de razonamiento (Re-Schedule), un algoritmo de programación que construye un plan de estudios que progresa desde consultas estructuralmente simples (puntuación r alta) hasta consultas complejas (puntuación r baja). Los experimentos en seis puntos de referencia de razonamiento matemático muestran que Re-Schedule mejora significativamente la precisión promedio, logrando ganancias de hasta el 3,2%. Estos sólidos resultados validan nuestro enfoque y demuestran que una comprensión estructural del árbol de razonamiento proporciona una base más poderosa y basada en principios para la programación de datos RLVR.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web