En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Logiplan: un punto de referencia estructurado para la planificación y el razonamiento relacional en LLMS en LLMS

Logiplan: un punto de referencia estructurado para la planificación y el razonamiento relacional en LLMS en LLMS

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Introducimos a Logiplan, un nuevo punto de referencia diseñado para evaluar las capacidades de los grandes modelos de idiomas (LLM) en la planificación lógica y el razonamiento sobre estructuras relacionales complejas. El razonamiento relacional lógico es importante para las aplicaciones que pueden confiar en LLM para generar y consultar gráficos estructurados de relaciones como la infraestructura de la red, las bases de conocimiento o el esquema de procesos comerciales. Nuestro marco permite la variación dinámica de la complejidad de la tarea al controlar el número de objetos, relaciones y la profundidad mínima de las cadenas relacionales, proporcionando una evaluación de grano fino del rendimiento del modelo en los niveles de dificultad. Logiplan abarca tres tareas complementarias: (1) Generación del plan, donde los modelos deben construir gráficos relacionales dirigidos válidos que cumplan con restricciones estructurales especificadas; (2) detección de consistencia, prueba de modelos de identificación para identificar inconsistencias en estructuras relacionales; y (3) cuestión de comparación, evaluar la capacidad de los modelos para determinar la validez de las relaciones consultadas dentro de un gráfico dado. Además, evaluamos las capacidades de autocorrección de los modelos al incorporarlos a verificar y refinar sus soluciones iniciales. Evaluamos modelos de vanguardia, incluidos Deepseek R1, Gemini 2.0 Pro, Gemini 2 Flash Thinking, GPT-4.5, GPT-4O, LLAMA 3.1 405B, O3-Mini, O1 y Claude 3.7 Sonnet entre estas tareas, revelando grandes toques de rendimiento que se correlacionan con la escala modelo y la arquitectura. Nuestro análisis demuestra que, si bien los modelos recientes mejorados por el razonamiento muestran resultados prometedores en instancias más simples, luchan con configuraciones más complejas que requieren una planificación lógica más profunda.

Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web