Resumen: Proponemos un marco iterativo de planificación programática (IPP) para resolver tareas basadas en la red sintetizando políticas de agente interpretables expresadas en código utilizando modelos de lenguaje grandes (LLM). En lugar de confiar en la búsqueda tradicional o el aprendizaje de refuerzo, nuestro enfoque utiliza la generación de código como síntesis de políticas, donde la LLM emite programas ejecutables que mapean los estados de entorno a las secuencias de acción. Nuestra arquitectura propuesta incorpora varias estrategias de indemnización, incluida la generación de código directo, el refinamiento condicionado por pseudocodos y la solicitud basada en el plan de estudios, pero también incluye un mecanismo de refinamiento iterativo que actualiza el código basado en la retroalimentación del rendimiento de la tarea. Evaluamos nuestro enfoque utilizando seis LLM principales y dos puntos de referencia basados en la cuadrícula desafiantes (GRASP y MINIGRID). Nuestro marco IPP demuestra mejoras sobre la generación de código directo que varía de 10 % a hasta 10 veces en cinco de los seis modelos y establece un nuevo resultado de estado de arte para comprender. Se encuentra que IPP supera significativamente la obtención directa de una solución de GPT-O3-Mini (en 63 % en minigrid a 116 % al agarre), lo que demuestra la viabilidad del enfoque general. Los costos computacionales de todos los enfoques de generación de código son similares. Si bien la generación de códigos tiene un costo inicial más alto en comparación con la obtención de la solución directa ( $ 0.08 por tarea frente a $ 0.002 por instancia para GPT-O3-Mini), el código puede reutilizarse para cualquier número de instancias, lo que hace que el costo amortizado sea significativamente más bajo (por 400X en GPT-O3-Mini en todo el resumen de agarre completo).
Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original