R-restrictBench: Evaluación de LLM en la programación de NP-Complete

Resumen: Programación efectiva bajo recursos ajustados, tiempo y limitaciones operativas sustentan la planificación a gran escala en todos los sectores, como proyectos de capital, fabricación, logística y transiciones de flota de TI. Sin embargo, la confiabilidad de los modelos de idiomas grandes (LLM) cuando el razonamiento bajo regímenes de alta restricción no se caracteriza. Para abordar esta brecha, presentamos R-Wraintbench, un marco escalable que evalúa modelos en problemas de programación de proyectos con restricciones de recursos (RCPSP), una clase de factibilidad completa NP, mientras que la dificultad aumenta a través del crecimiento lineal en las restricciones. El banco de restricción R aumenta incrementalmente restricciones de precedencia no redundantes en gráficos acíclicos dirigidos (DAG) y luego introduce tiempo de inactividad, ventanas temporales y restricciones disyuntivas. Como ejemplo ilustrativo, instanciamos el punto de referencia en una configuración de migración del centro de datos y evaluamos múltiples LLM utilizando el análisis de viabilidad y error, identificando los umbrales de degradación y los tipos de restricciones más asociados con la falla. Empíricamente, los modelos fuertes están cerca del techo en DAG solo de precedencia, pero el rendimiento de factibilidad colapsa cuando el tiempo de inactividad, las ventanas temporales y las restricciones disyuntivas interactúan, lo que implica la interacción de la restricción, no la profundidad de los gráficos, como el principal cuello de botella. El rendimiento de las rampas sintéticas limpias tampoco garantiza la transferencia a escenarios de dominio, lo que subraya la generalización limitada.

Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

POMDP multiambiente: incertidumbre del modelo discreto bajo observabilidad parcial

Alineación semántica de gráficos de conocimiento multilingües mediante proyecciones vectoriales contextualizadas

Marco de conocimiento matemático basado en gráficos para la fabricación aditiva confiable y predictiva basada en ecuaciones

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido