Resumen: Los modelos de lenguaje grande (LLM) ahora se usan ampliamente en muchos dominios. Con su rápido desarrollo, el aprendizaje de refuerzo con recompensas verificables (RLVR) ha aumentado en los últimos meses para mejorar sus habilidades de razonamiento y comprensión. Sin embargo, sus complejos flujos de datos y sus diversas tareas plantean desafíos sustanciales para los sistemas de capacitación RL, y existe una comprensión limitada de RLVR desde una perspectiva del sistema. Para comprender a fondo los desafíos del sistema introducidos por RLVR, presentamos un estudio de caracterización de tareas RLVR en nuestra implementación de LLM. Específicamente, investigamos las tendencias de distribución y variación de las cargas de trabajo en diferentes tareas RL en los pasos de capacitación. Identificamos problemas como el ralentí de GPU causado por la distribución de longitud de secuencia sesgada, estrategias paralelas ineficientes en cargas de trabajo variables dinámicamente, mecanismos ineficientes de gestión de datos y desequilibrio de carga. Describimos nuestras observaciones y pedimos una mayor investigación sobre los desafíos abiertos restantes. Además, proponemos la suite de referencia de PolyTrace para realizar una evaluación con cargas de trabajo realistas, y un caso de uso práctico valida que la suite de referencia PolyTrace exhibe una precisión del 94.7%.
Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original
