El pensamiento no es una ilusión: superar las limitaciones de los modelos de razonamiento a través de aumentos de herramientas

Resumen: Grandes modelos de razonamiento (LRMS) se han convertido en un foco central en la investigación de Modelo de lenguaje grande (LLM) actual, donde los modelos están diseñados para generar un proceso de pensamiento paso a paso antes de llegar a una respuesta final para manejar tareas de razonamiento complejas. A pesar de su promesa, los estudios empíricos recientes (por ejemplo, [Shojaee et al., 2025] de Apple) sugieren que este proceso de pensamiento puede no mejorar la capacidad de razonamiento, donde las LLM sin razonamiento explícito superan a LRMS en tareas con baja o alta complejidad. En este trabajo, revisamos estos hallazgos e investigamos si las limitaciones de los LRM persisten cuando se introducen los aumentos de herramientas. Incorporamos dos tipos de herramientas, intérpretes de Python y Pads Scratchpads, y evaluamos tres LLM representativas y sus homólogos LRM en los acertijos de razonamiento de referencia de Apple. Nuestros resultados muestran que, con el uso adecuado de la herramienta, los LRM superan consistentemente a sus contrapartes que no son de condición en todos los niveles de complejidad de tareas. Estos hallazgos desafían la narrativa reciente de que el razonamiento es una ilusión y destacan el potencial de los LRM acomodados en herramientas para resolver problemas complejos.

Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Relación médica inversa-AI: diagnóstico clínico de proceso completo impulsado por un modelo de lenguaje grande

La descarga: las mentes jóvenes brillantes de la computación y la limpieza de rayas satelitales

¿Qué preguntar a continuación? Probar el razonamiento imaginativo de los LLM con rompecabezas de tortuga

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido