Planificación de escala LLM: NL2Flow para la generación de problemas paramétricos y una evaluación rigurosa

Resumen: El progreso en la mejora de las capacidades de planificación y razonamiento del modelo de lenguaje grande (LLM) se ve significativamente obstaculizado por el cuello de botella de generación y evaluación de datos escalables y confiables. Para superar esto, introdujo NL2Flow, un sistema totalmente automatizado para generar problemas de planificación paramétricamente, expresados en lenguaje natural, una representación intermedia estructurada y PDDL formal, y evaluar rigurosamente la calidad de los planes generados. Demuestro las capacidades de NL2Flow generando un conjunto de datos de 2296 problemas en el dominio de generación de flujo de trabajo automatizado y evaluando múltiples LLM de instrucciones abiertas e instrucciones. Mis resultados revelan que los modelos de mayor rendimiento alcanzaron el 86% de éxito en la generación de planes válidos y el 69% en la generación de planes óptimos, específicamente para problemas con soluciones factibles. El análisis de regresión muestra que la influencia de las características del problema en la generación del plan depende tanto del diseño modelo como en el diseño rápido. En particular, observé que la tasa de éxito más alta para traducir el lenguaje natural en una representación JSON de un plan fue más baja que la tasa más alta de generar un plan válido directamente. Esto sugiere que la descomposición innecesariamente de la tarea de razonamiento, la introducción de pasos de traducción intermedios, en realidad puede degradar el rendimiento, lo que implica un beneficio a los modelos capaces de razonar directamente del lenguaje natural al acción. A medida que escala el razonamiento de LLM a problemas cada vez más complejos, los cuellos de botella y las fuentes de error dentro de estos sistemas inevitablemente cambiarán. Por lo tanto, una comprensión dinámica de estas limitaciones, y las herramientas para revelarlas sistemáticamente, será crucial para desbloquear todo el potencial de LLM como solucionadores de problemas inteligentes.

Publicado Originalme en export.arxiv.org El 3 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Protom: Promover el comportamiento prosocial a través de la teoría de la retroalimentación informada por la mente

Razón del futuro: la cadena de pensamiento inversa mejora el razonamiento de LLM

Holistic Explicable AI (H-XAI): extender la transparencia más allá de los desarrolladores en la toma de decisiones impulsadas por la IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido