Resumen: Un trabajo reciente informa que los modelos de razonamiento grande (LRM) sufren un colapso en el rendimiento al resolver acertijos más allá de ciertos umbrales de perplejidad. En discursos posteriores, han surgido preguntas sobre si la naturaleza de la tarea confunde la evaluación del verdadero razonamiento. Una posible confusión es el requisito de que el modelo realice un seguimiento del espacio de estados por sí solo. Proporcionamos un modelo de lenguaje grande (LLM) con una interfaz de entorno para los problemas de la Torre de Hanoi, lo que le permite realizar un movimiento con una llamada a una herramienta, proporcionar una justificación escrita, observar el espacio de estado resultante y volver a prepararse para el siguiente movimiento. Observamos que el acceso a una interfaz de entorno no retrasa ni erradica el colapso del rendimiento. Además, el análisis de políticas parametrizado por LLM revela una divergencia creciente tanto de las políticas óptimas como de las políticas uniformemente aleatorias, lo que sugiere que el modelo exhibe un colapso similar al modo en cada nivel de complejidad, y que el desempeño depende de si el modo refleja la solución correcta para el problema. Sugerimos que un fenómeno similar podría ocurrir en los LRM.
Publicado originalmente en export.arxiv.org el 20 de octubre de 2025.
Ver fuente original
