En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->CCrepairBench: un marco de referencia de alta fidelidad y un marco de aprendizaje de refuerzo para la reparación de la compilación C ++

CCrepairBench: un marco de referencia de alta fidelidad y un marco de aprendizaje de refuerzo para la reparación de la compilación C ++

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La reparación automatizada de los errores de compilación de C ++ presenta un desafío significativo, cuya resolución es crítica para la productividad del desarrollador. El progreso en este dominio está limitado por dos factores principales: la escasez de conjuntos de datos a gran escala y alta fidelidad y las limitaciones de los métodos supervisados ​​convencionales, que a menudo no pueden generar semánticamente correctos correctos. esta url http El documento aborda estas brechas al introducir un marco integral con tres contribuciones principales. Primero, presentamos CCREPAIR, un nuevo conjunto de datos de error de compilación de C ++ a gran escala construido a través de una tubería sofisticada generada y verificación. En segundo lugar, proponemos un paradigma de aprendizaje de refuerzo (RL) guiado por una señal de recompensa híbrida, cambiando el enfoque de la mera compilabilidad a la calidad semántica de la solución. Finalmente, establecemos el sólido sistema de evaluación de dos etapas que proporciona esta señal, centrada en un jueces LLM como-A-a-a, cuya fiabilidad ha sido rigurosamente validada contra los juicios colectivos de un panel de expertos humanos. Este enfoque integrado alinea el objetivo de entrenamiento con la generación de parches no triviales de alta calidad que son sintácticos y semánticamente correctos. La efectividad de nuestro enfoque se demostró experimentalmente. Nuestro modelo de instrucciones QWEN2.5-1.5B entrenado por RL logró un rendimiento comparable a un modelo de instrucciones QWEN2.5-14B, validando la eficiencia de nuestro paradigma de entrenamiento. Nuestro trabajo proporciona a la comunidad de investigación un nuevo conjunto de datos valioso y un paradigma más efectivo para capacitar y evaluar modelos de reparación de compilaciones sólidas, allanando el camino para asistentes de programación automatizados más prácticos y confiables.

Publicado Originalme en export.arxiv.org El 21 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web