El punto de referencia de Nazonazo: una prueba rentable y extensible del razonamiento basado en información en LLMS

Resumen: La saturación y la contaminación de referencia socavan la confianza en la evaluación de LLM. Presentamos a Nazonazo, un punto de referencia rentable y extensible construido con acertijos de niños japoneses para probar el razonamiento basado en información. Los elementos son cortos (principalmente una oración), no requieren conocimientos de dominio especializado y se pueden generar a escala, lo que permite una actualización rápida de conjuntos ciegos cuando se sospecha una fuga. Evaluamos 38 modelos fronterizos y 126 adultos en 120 acertijos. Ningún modelo, excepto GPT-5, es comparable al rendimiento humano, lo que logra una precisión media del 52.9%. La comparación del modelo en 201 elementos extendidos muestra que los modelos de razonamiento superan significativamente a los compañeros no superiores, mientras que el tamaño del modelo no muestra una asociación confiable con la precisión. Más allá de la precisión agregada, un análisis informal de seguimiento de candidatos de registros de pensamiento revela muchos casos de falla de verificación: los modelos a menudo producen la solución correcta entre los candidatos intermedios, pero no logra seleccionarlo como la respuesta final, que ilustramos con ejemplos representativos observados en múltiples modelos. Por lo tanto, Nazonazo ofrece un formato de referencia rentable, escalable y fácilmente renovable que aborda la crisis de evaluación actual, al tiempo que sugiere una debilidad metacognitiva recurrente, proporcionando objetivos claros para futuros métodos de control y calibración.

Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprendizaje de refuerzo de recompensa promedio para objetivos omega-regulares y de pago mezquino

Chart-COCA: comprensión de la tabla auto-planta de la visión LMS a través de la síntesis impulsada por el código y la respuesta condicionada por candidatos

Estrategias para la Semana Nacional de Concientización sobre la Zona de Trabajo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido