Logiplan: un punto de referencia estructurado para la planificación y el razonamiento relacional en LLMS en LLMS

Resumen: Introducimos a Logiplan, un nuevo punto de referencia diseñado para evaluar las capacidades de los grandes modelos de idiomas (LLM) en la planificación lógica y el razonamiento sobre estructuras relacionales complejas. El razonamiento relacional lógico es importante para las aplicaciones que pueden confiar en LLM para generar y consultar gráficos estructurados de relaciones como la infraestructura de la red, las bases de conocimiento o el esquema de procesos comerciales. Nuestro marco permite la variación dinámica de la complejidad de la tarea al controlar el número de objetos, relaciones y la profundidad mínima de las cadenas relacionales, proporcionando una evaluación de grano fino del rendimiento del modelo en los niveles de dificultad. Logiplan abarca tres tareas complementarias: (1) Generación del plan, donde los modelos deben construir gráficos relacionales dirigidos válidos que cumplan con restricciones estructurales especificadas; (2) detección de consistencia, prueba de modelos de identificación para identificar inconsistencias en estructuras relacionales; y (3) cuestión de comparación, evaluar la capacidad de los modelos para determinar la validez de las relaciones consultadas dentro de un gráfico dado. Además, evaluamos las capacidades de autocorrección de los modelos al incorporarlos a verificar y refinar sus soluciones iniciales. Evaluamos modelos de vanguardia, incluidos Deepseek R1, Gemini 2.0 Pro, Gemini 2 Flash Thinking, GPT-4.5, GPT-4O, LLAMA 3.1 405B, O3-Mini, O1 y Claude 3.7 Sonnet entre estas tareas, revelando grandes toques de rendimiento que se correlacionan con la escala modelo y la arquitectura. Nuestro análisis demuestra que, si bien los modelos recientes mejorados por el razonamiento muestran resultados prometedores en instancias más simples, luchan con configuraciones más complejas que requieren una planificación lógica más profunda.

Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Medir la alineación de la IA con florecimiento humano

El razonamiento es todo lo que necesita para la IA de planificación urbana

Hacia la teoría de la medición para la inteligencia artificial

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido