En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Uniendo agentes de planificación de LLM y métodos formales: un estudio de caso en la verificación de planes

Uniendo agentes de planificación de LLM y métodos formales: un estudio de caso en la verificación de planes

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Introducimos un marco novedoso para evaluar la alineación entre los planes de lenguaje natural y su comportamiento esperado convirtiéndolos en estructuras Kripke y lógica temporal lineal (LTL) utilizando modelos de lenguaje grande (LLM) y realizando la verificación del modelo. Evaluamos sistemáticamente este marco en una versión simplificada del conjunto de datos de verificación del plan PlanBench e informamos sobre métricas como exactitud, precisión, recuperación y puntuaciones F1. Nuestros experimentos demuestran que GPT-5 logra un excelente rendimiento de clasificación (puntuación F1 de 96,3%) y casi siempre produce representaciones formales sintácticamente perfectas que pueden actuar como garantías. Sin embargo, la síntesis de modelos formales semánticamente perfectos sigue siendo un área para exploración futura.

Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web