Resumen: Grandes modelos de razonamiento (LRMS) se han convertido en un foco central en la investigación de Modelo de lenguaje grande (LLM) actual, donde los modelos están diseñados para generar un proceso de pensamiento paso a paso antes de llegar a una respuesta final para manejar tareas de razonamiento complejas. A pesar de su promesa, los estudios empíricos recientes (por ejemplo, [Shojaee et al., 2025] de Apple) sugieren que este proceso de pensamiento puede no mejorar la capacidad de razonamiento, donde las LLM sin razonamiento explícito superan a LRMS en tareas con baja o alta complejidad. En este trabajo, revisamos estos hallazgos e investigamos si las limitaciones de los LRM persisten cuando se introducen los aumentos de herramientas. Incorporamos dos tipos de herramientas, intérpretes de Python y Pads Scratchpads, y evaluamos tres LLM representativas y sus homólogos LRM en los acertijos de razonamiento de referencia de Apple. Nuestros resultados muestran que, con el uso adecuado de la herramienta, los LRM superan consistentemente a sus contrapartes que no son de condición en todos los niveles de complejidad de tareas. Estos hallazgos desafían la narrativa reciente de que el razonamiento es una ilusión y destacan el potencial de los LRM acomodados en herramientas para resolver problemas complejos.
Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original