Resumen: Introducimos a Logiplan, un nuevo punto de referencia diseñado para evaluar las capacidades de los grandes modelos de idiomas (LLM) en la planificación lógica y el razonamiento sobre estructuras relacionales complejas. El razonamiento relacional lógico es importante para las aplicaciones que pueden confiar en LLM para generar y consultar gráficos estructurados de relaciones como la infraestructura de la red, las bases de conocimiento o el esquema de procesos comerciales. Nuestro marco permite la variación dinámica de la complejidad de la tarea al controlar el número de objetos, relaciones y la profundidad mínima de las cadenas relacionales, proporcionando una evaluación de grano fino del rendimiento del modelo en los niveles de dificultad. Logiplan abarca tres tareas complementarias: (1) Generación del plan, donde los modelos deben construir gráficos relacionales dirigidos válidos que cumplan con restricciones estructurales especificadas; (2) detección de consistencia, prueba de modelos de identificación para identificar inconsistencias en estructuras relacionales; y (3) cuestión de comparación, evaluar la capacidad de los modelos para determinar la validez de las relaciones consultadas dentro de un gráfico dado. Además, evaluamos las capacidades de autocorrección de los modelos al incorporarlos a verificar y refinar sus soluciones iniciales. Evaluamos modelos de vanguardia, incluidos Deepseek R1, Gemini 2.0 Pro, Gemini 2 Flash Thinking, GPT-4.5, GPT-4O, LLAMA 3.1 405B, O3-Mini, O1 y Claude 3.7 Sonnet entre estas tareas, revelando grandes toques de rendimiento que se correlacionan con la escala modelo y la arquitectura. Nuestro análisis demuestra que, si bien los modelos recientes mejorados por el razonamiento muestran resultados prometedores en instancias más simples, luchan con configuraciones más complejas que requieren una planificación lógica más profunda.
Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original