Resumen: Shojaee et al. (2025) informan que los grandes modelos de razonamiento (LRMS) exhiben “colapso de precisión” sobre la planificación de rompecabezas más allá de ciertos umbrales de complejidad. Demostramos que sus hallazgos reflejan principalmente limitaciones de diseño experimentales en lugar de fallas de razonamiento fundamental. Nuestro análisis revela tres problemas críticos: (1) los experimentos de la Torre de Hanoi exceden sistemáticamente los límites del token de salida del modelo en los puntos de falla informados, con modelos que reconocen explícitamente estas restricciones en sus salidas; (2) el marco de evaluación automatizado de los autores no puede distinguir entre fallas de razonamiento y restricciones prácticas, lo que lleva a la clasificación errónea de las capacidades del modelo; (3) En cuestión, sus puntos de referencia de cruce de ríos incluyen instancias matemáticamente imposibles para N> 5 debido a la capacidad insuficiente del barco, pero los modelos se califican como fallas para no resolver estos problemas insoluble. Cuando controlamos estos artefactos experimentales, al solicitar funciones generadoras en lugar de exhaustivas listas de movimientos, los experimentos preliminares en múltiples modelos indican alta precisión en las instancias de Tower of Hanoi previamente informadas como fallas completas. Estos hallazgos resaltan la importancia del diseño experimental cuidadoso al evaluar las capacidades de razonamiento de IA.
Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original