En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Los modelos de lenguajes grandes respetan los contratos? Evaluación y aplicación del cumplimiento del contrato en la generación de código

¿Los modelos de lenguajes grandes respetan los contratos? Evaluación y aplicación del cumplimiento del contrato en la generación de código

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los puntos de referencia de generación de código predominantes, como HumanEval+ y MBPP+, evalúan principalmente modelos de lenguajes grandes (LLM) con pass@k en corrección funcional utilizando entradas bien formadas. Sin embargo, ignoran un aspecto crucial del software del mundo real: el cumplimiento de los contratos: las condiciones previas y las restricciones de validez que dictan cómo deben rechazarse las entradas mal formadas. Esta supervisión crítica significa que los puntos de referencia existentes no logran medir y, en consecuencia, los modelos no logran generar fragmentos de código verdaderamente sólidos y confiables. Presentamos PACT, un marco de evaluación de programas y cumplimiento de contratos, para cerrar esta brecha. PACT es el primer marco diseñado para evaluar y mejorar sistemáticamente el cumplimiento de los contratos en fragmentos de código generados por LLM junto con la corrección funcional. Las contribuciones de PACT son triples: en primer lugar, proporciona un conjunto de pruebas integral centrado en violaciones de contratos, ampliando HumanEval+ y MBPP+. En segundo lugar, permite un análisis sistemático de la generación de código bajo diversas condiciones de activación. Este análisis demuestra que aumentar las indicaciones con casos de prueba que violan el contrato mejora significativamente la capacidad de un modelo para respetar los contratos en comparación con el uso de la descripción del contrato únicamente. Finalmente, introduce métricas novedosas para cuantificar rigurosamente el cumplimiento del contrato tanto en la generación de pruebas como en la generación de código. Al revelar errores críticos que los puntos de referencia convencionales pasan por alto, PACT proporciona métricas rigurosas e interpretables para evaluar la solidez de los fragmentos de código generados por LLM tanto en funcionalidad como en rendimiento. esta URL http El código y los datos están disponibles en esta URL https.

Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web