Uniendo agentes de planificación de LLM y métodos formales: un estudio de caso en la verificación de planes

Resumen: Introducimos un marco novedoso para evaluar la alineación entre los planes de lenguaje natural y su comportamiento esperado convirtiéndolos en estructuras Kripke y lógica temporal lineal (LTL) utilizando modelos de lenguaje grande (LLM) y realizando la verificación del modelo. Evaluamos sistemáticamente este marco en una versión simplificada del conjunto de datos de verificación del plan PlanBench e informamos sobre métricas como exactitud, precisión, recuperación y puntuaciones F1. Nuestros experimentos demuestran que GPT-5 logra un excelente rendimiento de clasificación (puntuación F1 de 96,3%) y casi siempre produce representaciones formales sintácticamente perfectas que pueden actuar como garantías. Sin embargo, la síntesis de modelos formales semánticamente perfectos sigue siendo un área para exploración futura.

Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: el problema de los documentos retraídos de la IA

GuidePoint Security ofrece nuevas soluciones de gobierno de IA

Los modelos de lenguaje son capaces de monitoreo metacognitivo y control de sus activaciones internas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido