En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->CodeScaler: Capacitación de LLM de código escalable e inferencia en el tiempo de prueba a través de modelos de recompensa sin ejecución

CodeScaler: Capacitación de LLM de código escalable e inferencia en el tiempo de prueba a través de modelos de recompensa sin ejecución

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El aprendizaje reforzado a partir de recompensas verificables (RLVR) ha impulsado el progreso reciente en modelos de lenguajes grandes de código al aprovechar la retroalimentación basada en la ejecución de las pruebas unitarias, pero su escalabilidad está fundamentalmente limitada por la disponibilidad y confiabilidad de los casos de prueba de alta calidad. Proponemos CodeScaler, un modelo de recompensa sin ejecución diseñado para escalar tanto el entrenamiento de aprendizaje por refuerzo como la inferencia en tiempo de prueba para la generación de código. CodeScaler está capacitado en datos de preferencias cuidadosamente seleccionados derivados de problemas de código verificados e incorpora extracción de código consciente de la sintaxis y configuración de recompensas que preservan la validez para garantizar una optimización estable y sólida. En cinco puntos de referencia de codificación, CodeScaler mejora Qwen3-8B-Base en un promedio de +11,72 puntos, superando a RL basado en ejecución binaria en +1,82 puntos y permite el aprendizaje por refuerzo escalable en conjuntos de datos sintéticos sin ningún caso de prueba. En el momento de la inferencia, CodeScaler sirve como un método eficaz de escalamiento en el momento de la prueba, logrando un rendimiento comparable a los enfoques de prueba unitaria y al mismo tiempo proporciona una reducción de 10 veces en la latencia. Además, CodeScaler supera los modelos de recompensa existentes en RM-Bench no solo en el dominio del código (+3,3 puntos), sino también en los dominios general y de razonamiento (+2,7 puntos en promedio).

Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web