¿Los modelos de lenguajes grandes respetan los contratos? Evaluación y aplicación del cumplimiento del contrato en la generación de código

Resumen: Los puntos de referencia de generación de código predominantes, como HumanEval+ y MBPP+, evalúan principalmente modelos de lenguajes grandes (LLM) con pass@k en corrección funcional utilizando entradas bien formadas. Sin embargo, ignoran un aspecto crucial del software del mundo real: el cumplimiento de los contratos: las condiciones previas y las restricciones de validez que dictan cómo deben rechazarse las entradas mal formadas. Esta supervisión crítica significa que los puntos de referencia existentes no logran medir y, en consecuencia, los modelos no logran generar fragmentos de código verdaderamente sólidos y confiables. Presentamos PACT, un marco de evaluación de programas y cumplimiento de contratos, para cerrar esta brecha. PACT es el primer marco diseñado para evaluar y mejorar sistemáticamente el cumplimiento de los contratos en fragmentos de código generados por LLM junto con la corrección funcional. Las contribuciones de PACT son triples: en primer lugar, proporciona un conjunto de pruebas integral centrado en violaciones de contratos, ampliando HumanEval+ y MBPP+. En segundo lugar, permite un análisis sistemático de la generación de código bajo diversas condiciones de activación. Este análisis demuestra que aumentar las indicaciones con casos de prueba que violan el contrato mejora significativamente la capacidad de un modelo para respetar los contratos en comparación con el uso de la descripción del contrato únicamente. Finalmente, introduce métricas novedosas para cuantificar rigurosamente el cumplimiento del contrato tanto en la generación de pruebas como en la generación de código. Al revelar errores críticos que los puntos de referencia convencionales pasan por alto, PACT proporciona métricas rigurosas e interpretables para evaluar la solidez de los fragmentos de código generados por LLM tanto en funcionalidad como en rendimiento. esta URL http El código y los datos están disponibles en esta URL https.

Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Tres conclusiones sobre la tecnología climática en este momento

3 cosas que le gustan a Stephanie Arnett en este momento

SMaRT: Seleccionar, mezclar y reinventar: un marco de fusión de estrategias para el razonamiento y la planificación basados ​​en LLM

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

SMaRT: Seleccionar, mezclar y reinventar: un marco de fusión de estrategias para el razonamiento y la planificación basados en LLM