CodeScaler: Capacitación de LLM de código escalable e inferencia en el tiempo de prueba a través de modelos de recompensa sin ejecución

Resumen: El aprendizaje reforzado a partir de recompensas verificables (RLVR) ha impulsado el progreso reciente en modelos de lenguajes grandes de código al aprovechar la retroalimentación basada en la ejecución de las pruebas unitarias, pero su escalabilidad está fundamentalmente limitada por la disponibilidad y confiabilidad de los casos de prueba de alta calidad. Proponemos CodeScaler, un modelo de recompensa sin ejecución diseñado para escalar tanto el entrenamiento de aprendizaje por refuerzo como la inferencia en tiempo de prueba para la generación de código. CodeScaler está capacitado en datos de preferencias cuidadosamente seleccionados derivados de problemas de código verificados e incorpora extracción de código consciente de la sintaxis y configuración de recompensas que preservan la validez para garantizar una optimización estable y sólida. En cinco puntos de referencia de codificación, CodeScaler mejora Qwen3-8B-Base en un promedio de +11,72 puntos, superando a RL basado en ejecución binaria en +1,82 puntos y permite el aprendizaje por refuerzo escalable en conjuntos de datos sintéticos sin ningún caso de prueba. En el momento de la inferencia, CodeScaler sirve como un método eficaz de escalamiento en el momento de la prueba, logrando un rendimiento comparable a los enfoques de prueba unitaria y al mismo tiempo proporciona una reducción de 10 veces en la latencia. Además, CodeScaler supera los modelos de recompensa existentes en RM-Bench no solo en el dominio del código (+3,3 puntos), sino también en los dominios general y de razonamiento (+2,7 puntos en promedio).

Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Una reunión fundamental sobre la guía de la vacuna está en marcha, y los ex líderes de los CDC están alarmados

ProofFlow: un enfoque de gráfico de dependencia para la autoformalización de prueba fiel

El cripto multimillonario Brian Armstrong está listo para invertir en CRISPR Baby Tech

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido