Comente sobre la ilusión del pensamiento: Comprender las fortalezas y limitaciones de los modelos de razonamiento a través de la lente de la complejidad de los problemas

Resumen: Shojaee et al. (2025) informan que los grandes modelos de razonamiento (LRMS) exhiben “colapso de precisión” sobre la planificación de rompecabezas más allá de ciertos umbrales de complejidad. Demostramos que sus hallazgos reflejan principalmente limitaciones de diseño experimentales en lugar de fallas de razonamiento fundamental. Nuestro análisis revela tres problemas críticos: (1) los experimentos de la Torre de Hanoi exceden sistemáticamente los límites del token de salida del modelo en los puntos de falla informados, con modelos que reconocen explícitamente estas restricciones en sus salidas; (2) el marco de evaluación automatizado de los autores no puede distinguir entre fallas de razonamiento y restricciones prácticas, lo que lleva a la clasificación errónea de las capacidades del modelo; (3) En cuestión, sus puntos de referencia de cruce de ríos incluyen instancias matemáticamente imposibles para N> 5 debido a la capacidad insuficiente del barco, pero los modelos se califican como fallas para no resolver estos problemas insoluble. Cuando controlamos estos artefactos experimentales, al solicitar funciones generadoras en lugar de exhaustivas listas de movimientos, los experimentos preliminares en múltiples modelos indican alta precisión en las instancias de Tower of Hanoi previamente informadas como fallas completas. Estos hallazgos resaltan la importancia del diseño experimental cuidadoso al evaluar las capacidades de razonamiento de IA.

Publicado Originalme en rss.arxiv.org El 11 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

V-Math: Un enfoque agente para los exámenes de matemáticas de graduación de la escuela secundaria de la escuela secundaria vietnamita

La brújula ética de la máquina: evaluación de modelos de idiomas grandes para el soporte de decisiones en la gestión de proyectos de construcción

Los virus diseñados por IA están aquí y ya matan bacterias

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido