Resumen: Grandes modelos de lenguaje (LLMS) han exhibido un rendimiento extraordinario en una variedad de tareas, mientras que sigue siendo un desafío para ellos resolver tareas complejas de varios pasos como agentes. En la práctica, los agentes sensibles al resultado de ciertos pasos clave lo que hace que puedan fallar la tarea debido a un error sutil en la trayectoria de planificación. Los enfoques recientes recurren a la calibración del proceso de razonamiento a través del aprendizaje de refuerzo. Recompensan o penalizan cada paso de razonamiento con la supervisión del proceso, como se conoce como modelos de recompensa de proceso (PRM). Sin embargo, los PRM son difíciles y costosos de ampliar con una gran cantidad de candidatos a la próxima acción, ya que requieren cálculos extensos para adquirir los datos de capacitación a través de la exploración de trayectoria por paso. Para mitigar este problema, nos centramos en la tendencia de recompensa relativa a través de pasos de razonamiento sucesivos y proponemos mantener una recompensa creciente en las trayectorias recopiladas para la supervisión de procesos, que llamamos la optimización del aumento de la recompensa (RRO). Específicamente, aumentamos incrementalmente la supervisión del proceso hasta identificar un paso que exhibe diferenciales de recompensa positivas, es decir, recompensas crecientes, en relación con su iteración anterior. Este método expande dinámicamente el espacio de búsqueda para los próximos candidatos de acción, capturando eficientemente datos de alta calidad. Proporcionamos fundamentos matemáticos y resultados empíricos en la tienda web e intercódigo de referencia de SQL, lo que demuestra que nuestro RRO propuesto logra un rendimiento superior al tiempo que requiere mucho menos costos de exploración.
Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original