TGPR: Refinamiento de políticas guiadas por árboles para una autodepuración sólida de LLM

Resumen: El refinamiento iterativo ha sido un paradigma prometedor para permitir que los modelos de lenguaje grandes (LLM) resuelvan tareas difíciles de razonamiento y resolución de problemas. Sin embargo, uno de los desafíos clave es cómo buscar de manera efectiva en el enorme espacio de búsqueda de posibles refinamientos. Los métodos existentes suelen recurrir a heurísticas predefinidas, que se ven afectadas por el dilema exploración-explotación y no pueden adaptarse en función de resultados de refinamiento pasados. Presentamos el Refinamiento de políticas guiado por árboles (TGPR), un marco novedoso que combina GRPO con una búsqueda de árboles basada en Thompson-Sampling. TGPR explora activamente caminos de refinamiento tanto exitosos como fallidos, con trayectorias de capacitación más densas y políticas más adaptables. En los puntos de referencia HumanEval, MBPP y APPS, nuestro método logra una mejora absoluta de hasta +4,2 puntos porcentuales en pass@1 (en MBPP) y hasta +12,51 puntos porcentuales de mejora absoluta en pass@10 (en APPS) en comparación con una base GRPO competitiva. Además de depurar el código, TGPR se centra en un enfoque basado en principios para combinar políticas aprendidas con métodos de búsqueda estructurados, ofreciendo un marco general para mejorar el refinamiento iterativo y el razonamiento con estado en los LLM.

Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Jigsaw-Puzzles: desde ver hasta la comprensión hasta el razonamiento en los modelos en idioma de la visión

ME $^3 $ -BEV: aprendizaje de refuerzo profundo mejorado de Mamba para conducir autónomo de extremo a extremo con percepción BEV

La descarga: un inspirador brazo robot de juguete, y por qué me importa la radio

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido