Resumen: Los modelos de lenguaje grande (LLM) han demostrado prometer en tareas de razonamiento y toma de decisiones generales en entornos estáticos. Sin embargo, en las tareas de planificación a largo plazo, los errores tienden a acumularse, lo que a menudo conduce a un comportamiento ineficiente o ineficiente, lo que limita su uso en entornos de uso general. Proponemos una arquitectura modular del actor-crítico en la que un actor de LLM es guiado por LTLCRIT, un crítico LLM de nivel de trayectoria que se comunica a través de lógica temporal lineal (LTL). Nuestra configuración combina las fortalezas de razonamiento de los modelos de lenguaje con las garantías de la lógica formal. El actor selecciona acciones de alto nivel de las observaciones del lenguaje natural, mientras que el crítico analiza las trayectorias completas y propone nuevas restricciones LTL que protegen al actor de un comportamiento inseguro o ineficiente futuro. La arquitectura admite restricciones de seguridad fijas y especificadas a mano y limitaciones suaves adaptativas y aprendidas que promueven la eficiencia a largo plazo. Nuestra arquitectura es modelatina: cualquier planificador basado en LLM puede servir como actor, y LTLCRIT sirve como un envoltorio de generación lógica. Formalizamos la planificación como transversal gráfico bajo restricciones simbólicas, permitiendo que LTLCRIT analice trayectorias fallidas o subóptimas y genere nuevas reglas lógicas temporales que mejoren el comportamiento futuro. Evaluamos nuestro sistema en el punto de referencia de minería de diamantes Minecraft, logrando tasas de finalización del 100% y mejorando la eficiencia en comparación con los planificadores de LLM de línea de base. Nuestros resultados sugieren que permitir que los LLM se supervisen entre sí a través de la lógica es un paradigma poderoso y flexible para la toma de decisiones seguras y generalizables.
Publicado Originalme en export.arxiv.org El 7 de julio de 2025.
Ver Fuente Original