En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Promover un razonamiento eficiente con recompensa paso a paso verificable

Promover un razonamiento eficiente con recompensa paso a paso verificable

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los grandes modelos de razonamiento (LRM) han logrado recientemente un progreso significativo en tareas de razonamiento complejos, ayudado por el aprendizaje de refuerzo con recompensas verificables. Sin embargo, los LRM a menudo sufren de pensamiento excesivo, gastando un cálculo excesivo en problemas simples y reduciendo la eficiencia. Los métodos de razonamiento eficientes existentes generalmente requieren una evaluación de tareas precisa a los presupuestos de token preestablecidos o seleccionar modos de razonamiento, lo que limita su flexibilidad y confiabilidad. En este trabajo, revisamos la esencia del pensamiento excesivo e identificamos que alentar los pasos efectivos mientras penalizamos los ineficaces es clave para su solución. Con este fin, proponemos un novedoso mecanismo de recompensa paso a paso basado en reglas (VSRM), que asigna recompensas basadas en el rendimiento de los estados intermedios en la trayectoria de razonamiento. Este enfoque es intuitivo y naturalmente se ajusta a la naturaleza paso a paso de las tareas de razonamiento. Realizamos experimentos extensos sobre puntos de referencia de razonamiento matemático estándar, incluidos AIME24 y AIME25, integrando VSRM con PPO y Reforce ++. Los resultados muestran que nuestro método logra una reducción sustancial de la longitud de salida al tiempo que mantiene el rendimiento del razonamiento original, lo que tiene un equilibrio óptimo entre la eficiencia y la precisión. El análisis posterior de la frecuencia de pensamiento excesivo y la puntuación de aprobación de@k antes y después del entrenamiento demuestra que nuestro enfoque en la escritura suprime efectivamente los pasos ineficaces y fomenta un razonamiento efectivo, aliviando fundamentalmente el problema de pensamiento excesivo. Todo el código se publicará tras la aceptación.

Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web