Resumen: Grandes modelos de razonamiento (LRMS) como OpenAI O1 y Deepseek R1 han demostrado un rendimiento impresionante en tareas de razonamiento complejos como las matemáticas y la programación con secuencias de razonamiento de cadena de pensamiento largas (cot) (pensamiento lento), en comparación con los modelos tradicionales de lenguaje grande (pensamiento rápido). Sin embargo, estos modelos de razonamiento también enfrentan un gran desafío de que generar cadenas de razonamiento innecesariamente largas y redundantes incluso para preguntas triviales. Este fenómeno conduce a un desperdicio significativo de recursos de inferencia, aumenta el tiempo de respuesta para consultas simples y dificulta la aplicación práctica de LRM en productos del mundo real. Con este fin, es crucial acortar las largas cadenas de razonamiento y aprender un razonamiento adaptativo entre el pensamiento rápido y lento en función de la dificultad de entrada. En esta encuesta, proporcionamos una visión general integral del progreso reciente en el pensamiento conciso y adaptativo para un razonamiento eficiente de LRM, incluidas metodologías, puntos de referencia y desafíos para la exploración futura. Esperamos que esta encuesta pueda ayudar a los investigadores a comprender rápidamente el paisaje de este campo e inspirar nuevas ideas de pensamiento adaptativo para facilitar un mejor uso de LRM.
Publicado Originalme en export.arxiv.org El 14 de julio de 2025.
Ver Fuente Original