Resumen: Los problemas combinatorios están presentes en una amplia gama de industrias. La programación de restricciones (CP) es un paradigma de resolución de problemas adecuado, pero su proceso central, a saber, el modelado de restricciones, es un cuello de botella para una adopción más amplia. Con el objetivo de aliviar este cuello de botella, los estudios recientes han explorado el uso de modelos de idiomas grandes (LLM) como asistentes de modelado, transformando descripciones de problemas combinatorios a modelos de restricción ejecutable, similares a los asistentes de codificación. Sin embargo, los conjuntos de datos de evaluación existentes para el modelado de restricciones a menudo se limitan a instancias pequeñas, homogéneas o específicas de dominio, que no capturan la diversidad de escenarios del mundo real. Este trabajo aborda esta brecha mediante la introducción de CP Bench, un nuevo conjunto de datos de referencia que incluye un conjunto diverso de clases de problemas combinatorios bien conocidos de la comunidad CP, estructurada explícitamente para evaluar el modelado de CP impulsado por LLM. Con este conjunto de datos, y dada la variedad de marcos de modelado de restricciones, comparamos y evaluamos las capacidades de modelado de LLM para tres sistemas de modelado de restricciones distintos, que varían en el nivel de abstracción y la sintaxis subyacente: el lenguaje Minizinc de alto nivel y la biblioteca CPMPY basada en Python, y la interfaz Python Interface de la interfaz CP-SAT-Tools de baja baja. Para mejorar la capacidad de los LLM para producir modelos de restricción válidos, evaluamos sistemáticamente el uso de métodos de cómputo basados en la solicitud y de inferencia adaptados de la investigación existente de generación de código basada en LLM. Nuestros resultados subrayan la conveniencia de modelado proporcionada por los marcos con sede en Python, así como la efectividad de las indicaciones del sistema ricas en documentación, que, aumentadas con muestreo repetido y autoverificación, logran mejoras adicionales, alcanzando hasta 70 % de precisión en este nuevo y muy desafiante resumen.
Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original