En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Planificación de escala LLM: NL2Flow para la generación de problemas paramétricos y una evaluación rigurosa

Planificación de escala LLM: NL2Flow para la generación de problemas paramétricos y una evaluación rigurosa

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El progreso en la mejora de las capacidades de planificación y razonamiento del modelo de lenguaje grande (LLM) se ve significativamente obstaculizado por el cuello de botella de generación y evaluación de datos escalables y confiables. Para superar esto, introdujo NL2Flow, un sistema totalmente automatizado para generar problemas de planificación paramétricamente, expresados ​​en lenguaje natural, una representación intermedia estructurada y PDDL formal, y evaluar rigurosamente la calidad de los planes generados. Demuestro las capacidades de NL2Flow generando un conjunto de datos de 2296 problemas en el dominio de generación de flujo de trabajo automatizado y evaluando múltiples LLM de instrucciones abiertas e instrucciones. Mis resultados revelan que los modelos de mayor rendimiento alcanzaron el 86% de éxito en la generación de planes válidos y el 69% en la generación de planes óptimos, específicamente para problemas con soluciones factibles. El análisis de regresión muestra que la influencia de las características del problema en la generación del plan depende tanto del diseño modelo como en el diseño rápido. En particular, observé que la tasa de éxito más alta para traducir el lenguaje natural en una representación JSON de un plan fue más baja que la tasa más alta de generar un plan válido directamente. Esto sugiere que la descomposición innecesariamente de la tarea de razonamiento, la introducción de pasos de traducción intermedios, en realidad puede degradar el rendimiento, lo que implica un beneficio a los modelos capaces de razonar directamente del lenguaje natural al acción. A medida que escala el razonamiento de LLM a problemas cada vez más complejos, los cuellos de botella y las fuentes de error dentro de estos sistemas inevitablemente cambiarán. Por lo tanto, una comprensión dinámica de estas limitaciones, y las herramientas para revelarlas sistemáticamente, será crucial para desbloquear todo el potencial de LLM como solucionadores de problemas inteligentes.

Publicado Originalme en export.arxiv.org El 3 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web