Resumen: El refinamiento iterativo ha sido un paradigma prometedor para permitir que los modelos de lenguaje grandes (LLM) resuelvan tareas difíciles de razonamiento y resolución de problemas. Sin embargo, uno de los desafíos clave es cómo buscar de manera efectiva en el enorme espacio de búsqueda de posibles refinamientos. Los métodos existentes suelen recurrir a heurísticas predefinidas, que se ven afectadas por el dilema exploración-explotación y no pueden adaptarse en función de resultados de refinamiento pasados. Presentamos el Refinamiento de políticas guiado por árboles (TGPR), un marco novedoso que combina GRPO con una búsqueda de árboles basada en Thompson-Sampling. TGPR explora activamente caminos de refinamiento tanto exitosos como fallidos, con trayectorias de capacitación más densas y políticas más adaptables. En los puntos de referencia HumanEval, MBPP y APPS, nuestro método logra una mejora absoluta de hasta +4,2 puntos porcentuales en pass@1 (en MBPP) y hasta +12,51 puntos porcentuales de mejora absoluta en pass@10 (en APPS) en comparación con una base GRPO competitiva. Además de depurar el código, TGPR se centra en un enfoque basado en principios para combinar políticas aprendidas con métodos de búsqueda estructurados, ofreciendo un marco general para mejorar el refinamiento iterativo y el razonamiento con estado en los LLM.
Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original