Programación de su aprendizaje por refuerzo LLM con árboles de razonamiento

Resumen: El uso del aprendizaje por refuerzo con recompensas verificables (RLVR) para optimizar los modelos de lenguaje grandes (LLM) se puede conceptualizar como una edición progresiva del “árbol de razonamiento” de una consulta. Este proceso implica explorar nodos (tokens) y modificar dinámicamente la política del modelo en cada nodo. Cuando se combina con la programación de datos, este proceso produce mayores ganancias en eficiencia y precisión de los datos. Sin embargo, los métodos de programación de datos RLVR existentes generalmente se basan en métricas basadas en rutas para clasificar las consultas, pasando por alto las estructuras de árbol de razonamiento de estas consultas. En este artículo, presentamos una métrica novedosa, llamada Reasoning Score (r-score), que mide la dificultad de aprendizaje de la consulta en función de la estructura de su árbol de razonamiento. Con base en el puntaje r, proponemos el Programa de árbol de razonamiento (Re-Schedule), un algoritmo de programación que construye un plan de estudios que progresa desde consultas estructuralmente simples (puntuación r alta) hasta consultas complejas (puntuación r baja). Los experimentos en seis puntos de referencia de razonamiento matemático muestran que Re-Schedule mejora significativamente la precisión promedio, logrando ganancias de hasta el 3,2%. Estos sólidos resultados validan nuestro enfoque y demuestran que una comprensión estructural del árbol de razonamiento proporciona una base más poderosa y basada en principios para la programación de datos RLVR.

Publicado originalmente en export.arxiv.org el 29 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Progreso social y tecnológico como coser una edredón cada vez mayor, siempre cambiante, irregular y policromático

El Agente Gr’afico: Gráficos de ejecución estructurados para agentes científicos

Marco de habilidades de los agentes: perspectivas sobre el potencial de los modelos de lenguaje pequeño en entornos industriales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido