RL en la naturaleza: Caracterización del entrenamiento RLVR en el despliegue de LLM

Resumen: Los modelos de lenguaje grande (LLM) ahora se usan ampliamente en muchos dominios. Con su rápido desarrollo, el aprendizaje de refuerzo con recompensas verificables (RLVR) ha aumentado en los últimos meses para mejorar sus habilidades de razonamiento y comprensión. Sin embargo, sus complejos flujos de datos y sus diversas tareas plantean desafíos sustanciales para los sistemas de capacitación RL, y existe una comprensión limitada de RLVR desde una perspectiva del sistema. Para comprender a fondo los desafíos del sistema introducidos por RLVR, presentamos un estudio de caracterización de tareas RLVR en nuestra implementación de LLM. Específicamente, investigamos las tendencias de distribución y variación de las cargas de trabajo en diferentes tareas RL en los pasos de capacitación. Identificamos problemas como el ralentí de GPU causado por la distribución de longitud de secuencia sesgada, estrategias paralelas ineficientes en cargas de trabajo variables dinámicamente, mecanismos ineficientes de gestión de datos y desequilibrio de carga. Describimos nuestras observaciones y pedimos una mayor investigación sobre los desafíos abiertos restantes. Además, proponemos la suite de referencia de PolyTrace para realizar una evaluación con cargas de trabajo realistas, y un caso de uso práctico valida que la suite de referencia PolyTrace exhibe una precisión del 94.7%.

Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

V-Jepa 2: los modelos de video auto-supervisados ​​permiten la comprensión, la predicción y la planificación

Algoritmos para la programación dinámica en la fabricación, hacia fábricas digitales Mejorando la viabilidad de los plazos y la capacidad de respuesta a través de redes temporales

Ajuste de condiciones semánticas: fusión del contexto de gráficos con modelos de lenguaje grandes para completar gráficos de conocimiento

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

V-Jepa 2: los modelos de video auto-supervisados permiten la comprensión, la predicción y la planificación