Resumen:Presentamos LLM-Wikirace, un punto de referencia para evaluar la planificación, el razonamiento y el conocimiento mundial en modelos de lenguajes grandes (LLM). En LLM-Wikirace, los modelos deben navegar de manera eficiente por los hipervínculos de Wikipedia paso a paso para llegar a una página de destino desde una fuente determinada, lo que requiere una planificación anticipada y la capacidad de razonar sobre cómo se conectan los conceptos en el mundo real. Evaluamos un amplio conjunto de modelos de código abierto y cerrado, incluidos Gemini-3, GPT-5 y Claude Opus 4.5, que logran los resultados más sólidos en el nivel fácil de la tarea y demuestran un rendimiento sobrehumano. A pesar de esto, el rendimiento cae drásticamente en dificultad difícil: el modelo de mejor rendimiento, Gemini-3, tiene éxito sólo en el 23% de los juegos difíciles, lo que pone de relieve los importantes desafíos que aún quedan por delante para los modelos fronterizos. Nuestro análisis muestra que el conocimiento del mundo es un ingrediente necesario para el éxito, pero sólo hasta cierto punto, más allá de este umbral, la planificación y las capacidades de razonamiento a largo plazo se convierten en factores dominantes. El análisis a nivel de trayectoria revela además que incluso los modelos más sólidos luchan por replanificar después de un fracaso, y con frecuencia entran en bucles en lugar de recuperarse. LLM-Wikirace es un punto de referencia simple que revela limitaciones claras en los sistemas de razonamiento actuales, ofreciendo un campo abierto donde los LLM con capacidad de planificación todavía tienen mucho que demostrar. Nuestro código y tabla de clasificación disponibles en https://llmwikirace.github.io.
Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original
