En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Planificación agente de LLM mediante simulación PDDL paso a paso: una caracterización empírica

Planificación agente de LLM mediante simulación PDDL paso a paso: una caracterización empírica

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La planificación de tareas, el problema de secuenciar acciones para alcanzar una meta desde un estado inicial, es un requisito de capacidad central para los sistemas robóticos autónomos. Sigue siendo una cuestión abierta si los grandes modelos lingüísticos (LLM) pueden servir como planificadores viables junto con los métodos simbólicos clásicos. Presentamos PyPDDLEngine, un motor de simulación de lenguaje de definición de dominio de planificación (PDDL) de código abierto que expone operaciones de planificación como llamadas a herramientas LLM a través de una interfaz de protocolo de contexto de modelo (MCP). En lugar de comprometerse con una secuencia de acciones completa por adelantado, el LLM actúa como una política de búsqueda interactiva que selecciona una acción a la vez, observa cada estado resultante y puede restablecer y volver a intentar. Evaluamos cuatro enfoques en 102 instancias de Blocksworld de la Competencia Internacional de Planificación (IPC) bajo un presupuesto uniforme de 180 segundos: Fast Downward lama-first y seq-sat-lama-2011 como líneas de base clásicas, planificación directa de LLM (Claude Haiku 4.5) y planificación de LLM agente a través de PyPDDLEngine. Fast Downward logra un 85,3% de éxito. Los enfoques LLM directo y agente logran 63,7% y 66,7%, respectivamente, una ventaja consistente pero modesta de tres puntos porcentuales para el enfoque agente a un costo simbólico $5,7veces$ más alto por solución. En la mayoría de los bloques de dificultad co-resueltos, ambos enfoques LLM producen planes más cortos que seq-sat-lama-2011 a pesar de su mejora iterativa de la calidad, un resultado consistente con la recuperación de datos de entrenamiento en lugar de una planificación generalizable. Estos resultados sugieren que las ganancias agentes dependen de la naturaleza de la retroalimentación ambiental. Los agentes de codificación se benefician de señales con base externa, como errores del compilador y fallas de prueba, mientras que la retroalimentación de los pasos PDDL se autoevalúa, lo que permite al agente evaluar su propio progreso sin verificación externa.

Publicado originalmente en export.arxiv.org el 8 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web