Resumen: Los avances recientes en grandes modelos de razonamiento (LRM) tienen capacidades significativamente mejoradas de modelos de lenguaje en la resolución compleja de problemas al emular el pensamiento deliberativo humano. Sin embargo, estos modelos a menudo exhiben un pensamiento excesivo (es decir, la generación de contenido innecesariamente detallado y redundante), lo que dificulta la eficiencia e infla el costo de la inferencia. En este trabajo, exploramos los orígenes representativos y conductuales de esta ineficiencia, revelando que LRMS inherentemente posee la capacidad de un razonamiento más conciso. Los análisis empíricos muestran que las rutas de razonamiento correctas varían significativamente en longitud, y las respuestas correctas más cortas a menudo son suficientes, lo que indica un potencial de eficiencia sin explotar. Al explotar estos hallazgos, proponemos dos métodos livianos para mejorar la eficiencia de LRM. Primero, presentamos la dirección de eficiencia, una técnica de dirección de activación sin entrenamiento que modula el comportamiento de razonamiento a través de una sola dirección en el espacio de representación del modelo. En segundo lugar, desarrollamos RL de eficiencia auto-realizada, un marco de aprendizaje de refuerzo que equilibra dinámicamente la precisión y brevedad de la tarea al recompensar las soluciones correctas concisas. Experimentos extensos en siete columnas de LRM en múltiples puntos de referencia de razonamiento matemático demuestran que nuestros métodos reducen significativamente la longitud del razonamiento al tiempo que preservan o mejoran el rendimiento de la tarea. Nuestros resultados destacan que la eficiencia del razonamiento puede mejorarse aprovechando y guiando las capacidades intrínsecas de los modelos existentes de manera autoguiada.
Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original