En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Modelos de lenguaje grande agente para la ingeniería y diseño de sistemas conceptuales

Modelos de lenguaje grande agente para la ingeniería y diseño de sistemas conceptuales

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El diseño de ingeniería en etapas tempranas implica un razonamiento complejo e iterativo, pero el modelo de trabajo de lenguaje grande existente (LLM) los flujos de trabajo luchan para mantener la continuidad de la tarea y generar modelos ejecutables. Evaluamos si un sistema estructurado de múltiples agentes (MAS) puede gestionar de manera más efectiva la extracción de requisitos, la descomposición funcional y la generación del código del simulador que un sistema de dos agentes más simple (2A). La aplicación objetivo es un sistema de filtración de agua con energía solar como se describe en un Cahier DES. Presentamos el gráfico de estado de diseño (DSG), una representación JSON-Serializable que envuelve los requisitos, las realizaciones físicas y los modelos de física basados en Python en nodos gráficos. Un rol de nueve roles construye y refina el DSG, mientras que el 2A colapsa el proceso a un bucle de reflector generador. Ambos sistemas ejecutan un total de 60 experimentos (2 LLMS – LLAMA 3.3 70B frente a DeepSeek DeepSeek desenterrado R1 70B x 2 Configuraciones de agente X 3 Temperaturas x 5 semillas). Reportamos una validez JSON, cobertura de requisitos, presencia de realización, compatibilidad con código, finalización del flujo de trabajo, tiempo de ejecución y tamaño de gráfico. En todas las carreras, tanto MAS como 2A mantuvieron la integridad JSON perfecta y el etiquetado de la realización. La cobertura del requisito permaneció mínima (menos del 20 %). La compatibilidad del código alcanzó un máximo de 100 % en configuración específica de 2AS, pero promedió por debajo del 50 % para MAS. Solo el modelo designado por el razonamiento de la finalización de flujo de trabajo marcado de manera confiable. Impulsado por Deepseek R1 70B, el MAS generó más DSGS granulares (promedio de 5-6 nodos), mientras que 2AS se colapsó en modo. Detalles de diseño mejorados de orquestación de agentes múltiples estructurados. LLM destilado por el razonamiento mejoró las tasas de finalización, pero persistieron los requisitos bajos y las brechas de fidelidad en la codificación.

Publicado Originalme en export.arxiv.org El 13 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web