CP Bench: Evaluación de modelos de idiomas grandes para el modelado de restricciones

Resumen: Los problemas combinatorios están presentes en una amplia gama de industrias. La programación de restricciones (CP) es un paradigma de resolución de problemas adecuado, pero su proceso central, a saber, el modelado de restricciones, es un cuello de botella para una adopción más amplia. Con el objetivo de aliviar este cuello de botella, los estudios recientes han explorado el uso de modelos de idiomas grandes (LLM) como asistentes de modelado, transformando descripciones de problemas combinatorios a modelos de restricción ejecutable, similares a los asistentes de codificación. Sin embargo, los conjuntos de datos de evaluación existentes para el modelado de restricciones a menudo se limitan a instancias pequeñas, homogéneas o específicas de dominio, que no capturan la diversidad de escenarios del mundo real. Este trabajo aborda esta brecha mediante la introducción de CP Bench, un nuevo conjunto de datos de referencia que incluye un conjunto diverso de clases de problemas combinatorios bien conocidos de la comunidad CP, estructurada explícitamente para evaluar el modelado de CP impulsado por LLM. Con este conjunto de datos, y dada la variedad de marcos de modelado de restricciones, comparamos y evaluamos las capacidades de modelado de LLM para tres sistemas de modelado de restricciones distintos, que varían en el nivel de abstracción y la sintaxis subyacente: el lenguaje Minizinc de alto nivel y la biblioteca CPMPY basada en Python, y la interfaz Python Interface de la interfaz CP-SAT-Tools de baja baja. Para mejorar la capacidad de los LLM para producir modelos de restricción válidos, evaluamos sistemáticamente el uso de métodos de cómputo basados en la solicitud y de inferencia adaptados de la investigación existente de generación de código basada en LLM. Nuestros resultados subrayan la conveniencia de modelado proporcionada por los marcos con sede en Python, así como la efectividad de las indicaciones del sistema ricas en documentación, que, aumentadas con muestreo repetido y autoverificación, logran mejoras adicionales, alcanzando hasta 70 % de precisión en este nuevo y muy desafiante resumen.

Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Monitoreo de robustez y justicia individual

Integración de la semántica de planificación de IA en modelos de sistemas SYSML para la generación automatizada de archivos PDDL

Revisión de creencias iterada: de postulados a habilidades

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido