LLM-WikiRace: Evaluación comparativa de la planificación y el razonamiento a largo plazo con respecto a gráficos de conocimiento del mundo real

Resumen:Presentamos LLM-Wikirace, un punto de referencia para evaluar la planificación, el razonamiento y el conocimiento mundial en modelos de lenguajes grandes (LLM). En LLM-Wikirace, los modelos deben navegar de manera eficiente por los hipervínculos de Wikipedia paso a paso para llegar a una página de destino desde una fuente determinada, lo que requiere una planificación anticipada y la capacidad de razonar sobre cómo se conectan los conceptos en el mundo real. Evaluamos un amplio conjunto de modelos de código abierto y cerrado, incluidos Gemini-3, GPT-5 y Claude Opus 4.5, que logran los resultados más sólidos en el nivel fácil de la tarea y demuestran un rendimiento sobrehumano. A pesar de esto, el rendimiento cae drásticamente en dificultad difícil: el modelo de mejor rendimiento, Gemini-3, tiene éxito sólo en el 23% de los juegos difíciles, lo que pone de relieve los importantes desafíos que aún quedan por delante para los modelos fronterizos. Nuestro análisis muestra que el conocimiento del mundo es un ingrediente necesario para el éxito, pero sólo hasta cierto punto, más allá de este umbral, la planificación y las capacidades de razonamiento a largo plazo se convierten en factores dominantes. El análisis a nivel de trayectoria revela además que incluso los modelos más sólidos luchan por replanificar después de un fracaso, y con frecuencia entran en bucles en lugar de recuperarse. LLM-Wikirace es un punto de referencia simple que revela limitaciones claras en los sistemas de razonamiento actuales, ofreciendo un campo abierto donde los LLM con capacidad de planificación todavía tienen mucho que demostrar. Nuestro código y tabla de clasificación disponibles en https://llmwikirace.github.io.

Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Extender FKG.in: hacia una red de trazabilidad de reclamo de alimentos

Infoday Nacional Horizonte Europa Cluster 4 Industria

Plataformas impulsoras y tecnología descentralizada en atención sanitaria y ciencias biológicas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido