En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->R-restrictBench: Evaluación de LLM en la programación de NP-Complete

R-restrictBench: Evaluación de LLM en la programación de NP-Complete

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Programación efectiva bajo recursos ajustados, tiempo y limitaciones operativas sustentan la planificación a gran escala en todos los sectores, como proyectos de capital, fabricación, logística y transiciones de flota de TI. Sin embargo, la confiabilidad de los modelos de idiomas grandes (LLM) cuando el razonamiento bajo regímenes de alta restricción no se caracteriza. Para abordar esta brecha, presentamos R-Wraintbench, un marco escalable que evalúa modelos en problemas de programación de proyectos con restricciones de recursos (RCPSP), una clase de factibilidad completa NP, mientras que la dificultad aumenta a través del crecimiento lineal en las restricciones. El banco de restricción R aumenta incrementalmente restricciones de precedencia no redundantes en gráficos acíclicos dirigidos (DAG) y luego introduce tiempo de inactividad, ventanas temporales y restricciones disyuntivas. Como ejemplo ilustrativo, instanciamos el punto de referencia en una configuración de migración del centro de datos y evaluamos múltiples LLM utilizando el análisis de viabilidad y error, identificando los umbrales de degradación y los tipos de restricciones más asociados con la falla. Empíricamente, los modelos fuertes están cerca del techo en DAG solo de precedencia, pero el rendimiento de factibilidad colapsa cuando el tiempo de inactividad, las ventanas temporales y las restricciones disyuntivas interactúan, lo que implica la interacción de la restricción, no la profundidad de los gráficos, como el principal cuello de botella. El rendimiento de las rampas sintéticas limpias tampoco garantiza la transferencia a escenarios de dominio, lo que subraya la generalización limitada.

Publicado Originalme en export.arxiv.org El 21 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web