Resumen:Evaluar las capacidades de razonamiento de los modelos de lenguajes grandes es cada vez más desafiante a medida que los modelos mejoran. La curación humana de preguntas difíciles es muy costosa, especialmente en pruebas comparativas recientes que utilizan conocimientos de dominio de nivel de doctorado para desafiar los modelos más capaces. Incluso entonces, siempre existe la preocupación de si estas preguntas ponen a prueba un razonamiento genuino o si se han observado problemas similares durante la capacitación. Aquí, nos inspiramos en los duelos matemáticos del siglo XVI para diseñar The Token Games (TTG): un marco de evaluación donde los modelos se desafían entre sí creando sus propios rompecabezas. Aprovechamos el formato de acertijos de programación (dada una función de Python que devuelve un valor booleano, encontramos entradas que hacen que devuelva Verdadero) para representar problemas de manera flexible y permitir la verificación de soluciones. Utilizando los resultados de duelos por parejas, calculamos las calificaciones Elo, lo que nos permite comparar modelos entre sí. Evaluamos 10 modelos de frontera en TTG y coincidimos estrechamente con la clasificación de los puntos de referencia existentes, como Humanity’s Last Exam, sin involucrar ningún esfuerzo humano en la creación de rompecabezas. También descubrimos que crear buenos rompecabezas sigue siendo una tarea muy desafiante para los modelos actuales, no medida por puntos de referencia anteriores. En general, nuestro trabajo sugiere nuevos paradigmas para evaluar el razonamiento que no pueden saturarse con el diseño y que permiten probar modelos para otras habilidades como la creatividad y la creación de tareas junto con la resolución de problemas.
Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original
