Planificación agente de LLM mediante simulación PDDL paso a paso: una caracterización empírica

Resumen: La planificación de tareas, el problema de secuenciar acciones para alcanzar una meta desde un estado inicial, es un requisito de capacidad central para los sistemas robóticos autónomos. Sigue siendo una cuestión abierta si los grandes modelos lingüísticos (LLM) pueden servir como planificadores viables junto con los métodos simbólicos clásicos. Presentamos PyPDDLEngine, un motor de simulación de lenguaje de definición de dominio de planificación (PDDL) de código abierto que expone operaciones de planificación como llamadas a herramientas LLM a través de una interfaz de protocolo de contexto de modelo (MCP). En lugar de comprometerse con una secuencia de acciones completa por adelantado, el LLM actúa como una política de búsqueda interactiva que selecciona una acción a la vez, observa cada estado resultante y puede restablecer y volver a intentar. Evaluamos cuatro enfoques en 102 instancias de Blocksworld de la Competencia Internacional de Planificación (IPC) bajo un presupuesto uniforme de 180 segundos: Fast Downward lama-first y seq-sat-lama-2011 como líneas de base clásicas, planificación directa de LLM (Claude Haiku 4.5) y planificación de LLM agente a través de PyPDDLEngine. Fast Downward logra un 85,3% de éxito. Los enfoques LLM directo y agente logran 63,7% y 66,7%, respectivamente, una ventaja consistente pero modesta de tres puntos porcentuales para el enfoque agente a un costo simbólico $5,7veces$ más alto por solución. En la mayoría de los bloques de dificultad co-resueltos, ambos enfoques LLM producen planes más cortos que seq-sat-lama-2011 a pesar de su mejora iterativa de la calidad, un resultado consistente con la recuperación de datos de entrenamiento en lugar de una planificación generalizable. Estos resultados sugieren que las ganancias agentes dependen de la naturaleza de la retroalimentación ambiental. Los agentes de codificación se benefician de señales con base externa, como errores del compilador y fallas de prueba, mientras que la retroalimentación de los pasos PDDL se autoevalúa, lo que permite al agente evaluar su propio progreso sin verificación externa.

Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

OLG ++: una extensión semántica del gráfico de lógica de obligación

Dentro del esfuerzo por contar el apetito energético de AI

EcphoryRAG: Reimaginación del RAG de gráficos de conocimiento a través de la memoria asociativa humana

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido