Resumen: A principios de este año, Apple encendió la controversia al publicar “La ilusión del pensamiento”, lo que provocó un acalorado debate dentro de la comunidad de IA. Los críticos se apoderaron de los hallazgos como evidencia concluyente de que los grandes modelos de razonamiento (LRMS) carecen de capacidades de razonamiento genuinas, calificándolos como meros loros estocásticos. Mientras tanto, los defensores se encienden por Lawsen et al. (2025)-Se disparó, condenando la configuración experimental como defectuosa y las conclusiones exageradas. Aclaramos este debate replicando y refinando dos de los puntos de referencia más polémicos del estudio original: Towers of Hanoi y River Crossing. Al introducir la incrustación gradual incremental y el diálogo colaborativo de agente, mostramos que las fallas previamente reportadas que resuelven las torres de Hanoi no fueron el resultado puramente de limitaciones de salida, sino también en parte el resultado de limitaciones de cognición: los LRM todavía tropiezan cuando la complejidad aumenta moderadamente (alrededor de 8 discos). Además, los resultados de la cruce del río inicialmente anunciados como fallas catastróficas se convierten en depender de la prueba de configuraciones insoluble. Una vez que limitamos las pruebas estrictamente a problemas solucionables-LRM, resuelven sin esfuerzo grandes instancias que involucran más de 100 pares de agentes. Nuestros hallazgos finalmente desafían las narrativas simplistas: los LRM de hoy son buscadores estocásticos y sintonizados con RL en un espacio de estado discreto que apenas entendemos. El progreso real en el razonamiento simbólico de horizonte largo exige el mapeo de ese terreno a través de ablaciones de grano fino como las introducidas aquí.
Publicado Originalme en export.arxiv.org El 2 de julio de 2025.
Ver Fuente Original