Enseñanza de LLMS a planificar: Cintonización de instrucción lógica de la cadena de pensamiento para la planificación simbólica

Resumen: Los modelos de idiomas grandes (LLM) han demostrado capacidades impresionantes en diversas tareas, sin embargo, su capacidad para realizar una planificación simbólica estructurada sigue siendo limitada, particularmente en dominios que requieren representaciones formales como el lenguaje de definición de dominio de planificación (PDDL). En este documento, presentamos un marco de ajuste de instrucciones novedoso, PDDL-Instructo, diseñado para mejorar las capacidades de planificación simbólica de LLM a través del razonamiento lógico de la cadena de pensamiento. Nuestro enfoque se centra en enseñar modelos para razonar rigurosamente sobre la aplicabilidad de la acción, las transiciones estatales y la validez del plan utilizando pasos de inferencia lógica explícitos. Al desarrollar indicaciones de instrucción que guían a los modelos a través del razonamiento lógico preciso requerido para determinar cuándo se pueden aplicar acciones en un estado determinado, permitimos que los LLM autocorrecten sus procesos de planificación a través de la reflexión estructurada. El marco construye sistemáticamente las habilidades de verificación al descomponer el proceso de planificación en cadenas de razonamiento explícitas sobre la satisfacción previa a la condición, la aplicación del efecto y la preservación invariante. Los resultados experimentales en múltiples dominios de planificación muestran que nuestros modelos de instrucción basados en el razonamiento de la cadena de pensamiento son significativamente mejores para la planificación, logiendo la precisión de la planificación de hasta el 94% en los puntos de referencia estándar, lo que representa una mejora absoluta del 66% sobre los modelos de referencia. Este trabajo une la brecha entre las capacidades de razonamiento general de los LLM y la precisión lógica requerida para la planificación automatizada, ofreciendo una dirección prometedora para desarrollar mejores sistemas de planificación de IA.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Pueden los modelos de idiomas grandes desarrollar adicción al juego?

La búsqueda para construir un radiotelescopio que pueda escuchar la Edad Media cósmica

Capacitación de programadores de alto nivel con aprendizaje reforzado con retroalimentación de ejecución para la automatización de GUI a largo plazo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido