CodeScaler: Capacitación de LLM de código escalable e inferencia en el tiempo de prueba a través de modelos de recompensa sin ejecución
Resumen: El aprendizaje reforzado a partir de recompensas verificables (RLVR) ha impulsado el progreso reciente en modelos de lenguajes grandes de código al aprovechar la retroalimentación basada en la ejecución de las pruebas unitarias, pero su escalabilidad está fundamentalmente limitada por la disponibilidad y confiabilidad de los casos de prueba de alta calidad.
Leer más →