Optimización de políticas proximales truncadas

Resumen: Recientemente, la escalada de tiempo de prueba de grandes modelos de lenguaje (LLMS) ha demostrado capacidades de razonamiento excepcionales en tareas científicas y profesionales mediante la generación de largas cadenas de pensamiento (COT). Como un componente crucial para desarrollar estos modelos de razonamiento, el aprendizaje de refuerzo (RL), ejemplificado por la optimización de políticas proximales (PPO) y sus variantes, permite que los modelos aprendan a través de pruebas y errores. Sin embargo, PPO puede llevar mucho tiempo debido a su naturaleza inherente en la política, lo que se exacerba aún más por el aumento de las longitudes de respuesta. En este trabajo, proponemos la optimización de políticas proximales truncadas (T-PPO), una extensión novedosa a PPO que mejora la eficiencia de la capacitación al racionalizar la actualización de la política y la generación de respuesta restringida por longitud. T-PPO mitiga el problema de la utilización de baja hardware, un inconveniente inherente de los procedimientos de larga generación totalmente sincronizados, donde los recursos a menudo quedan inactivos durante los períodos de espera para despliegues completos. Nuestras contribuciones son dos pliegues. Primero, proponemos una estimación de ventaja generalizada extendida (EGAE) para una estimación de ventaja derivada de respuestas incompletas mientras mantenemos la integridad del aprendizaje de políticas. En segundo lugar, diseñamos un mecanismo optimizado computacionalmente que permite la optimización independiente de los modelos de política y valor. Al filtrar seleccionando selectivamente y tokens truncados, este mecanismo reduce los cálculos redundantes y acelera el proceso de entrenamiento sin sacrificar el rendimiento de la convergencia. Demostramos la efectividad y eficacia de T-PPO en AIME 2024 con un modelo base de 32B. Los resultados experimentales muestran que T-PPO mejora la eficiencia de entrenamiento de LLM de razonamiento en hasta 2.5x y supera a sus competidores existentes.

Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MemTrack: Evaluación de la memoria a largo plazo y el seguimiento de estado en entornos de agentes dinámicos multiplataforma

AI generativa para el diseño urbano: un enfoque gradual que integra la experiencia humana con modelos de difusión multimodal

Respuesta AIOTI al llamado a la evidencia sobre la revisión de la regulación de la estandarización

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido