Resumen: Los modelos de lenguaje grande (LLM) han progresado rápidamente en agentes de uso general capaces de resolver un amplio espectro de tareas. Sin embargo, los modelos actuales siguen siendo ineficientes en el razonamiento: aplican un cálculo de inferencia fijo independientemente de la complejidad de la tarea, a menudo pensando demasiado los problemas simples mientras están a la altura de los difíciles. Esta encuesta presenta una revisión exhaustiva de las estrategias eficientes de computo de tiempo de prueba (TTC), cuyo objetivo es mejorar la eficiencia computacional del razonamiento LLM. Introducimos una taxonomía de dos niveles que distingue entre la capacidad de control L1, los métodos que operan bajo presupuestos de cómputo fijos y adaptividad L2, métodos que escalan dinámicamente la inferencia basada en la dificultad de entrada o la confianza del modelo. Comparamos LLM propietarios principales en diversos conjuntos de datos, destacando las compensaciones críticas entre el rendimiento del razonamiento y el uso de tokens. En comparación con las encuestas previas sobre razonamiento eficiente, nuestra revisión enfatiza el control práctico, la adaptabilidad y la escalabilidad de los métodos TTC. Finalmente, discutimos las tendencias emergentes como los modelos de pensamiento híbrido e identificamos desafíos clave para el trabajo futuro para hacer que los LLM sean más eficientes, robustos y sensibles a las limitaciones de los usuarios.
Publicado Originalme en export.arxiv.org El 3 de julio de 2025.
Ver Fuente Original