Resumen: La saturación y la contaminación de referencia socavan la confianza en la evaluación de LLM. Presentamos a Nazonazo, un punto de referencia rentable y extensible construido con acertijos de niños japoneses para probar el razonamiento basado en información. Los elementos son cortos (principalmente una oración), no requieren conocimientos de dominio especializado y se pueden generar a escala, lo que permite una actualización rápida de conjuntos ciegos cuando se sospecha una fuga. Evaluamos 38 modelos fronterizos y 126 adultos en 120 acertijos. Ningún modelo, excepto GPT-5, es comparable al rendimiento humano, lo que logra una precisión media del 52.9%. La comparación del modelo en 201 elementos extendidos muestra que los modelos de razonamiento superan significativamente a los compañeros no superiores, mientras que el tamaño del modelo no muestra una asociación confiable con la precisión. Más allá de la precisión agregada, un análisis informal de seguimiento de candidatos de registros de pensamiento revela muchos casos de falla de verificación: los modelos a menudo producen la solución correcta entre los candidatos intermedios, pero no logra seleccionarlo como la respuesta final, que ilustramos con ejemplos representativos observados en múltiples modelos. Por lo tanto, Nazonazo ofrece un formato de referencia rentable, escalable y fácilmente renovable que aborda la crisis de evaluación actual, al tiempo que sugiere una debilidad metacognitiva recurrente, proporcionando objetivos claros para futuros métodos de control y calibración.
Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original