Resumen: Los avances recientes en grandes modelos de razonamiento (LRM) tienen capacidades significativamente mejoradas de modelos de lenguaje en la resolución compleja de problemas al emular el pensamiento deliberativo humano. Sin embargo, estos modelos a menudo exhiben un pensamiento excesivo (es decir, la generación de contenido innecesariamente detallado y redundante), lo que dificulta la eficiencia e infla el costo de la inferencia. En este trabajo, exploramos los orígenes representativos y conductuales de esta ineficiencia, revelando que LRMS inherentemente posee la capacidad de un razonamiento más conciso. Los análisis empíricos muestran que las rutas de razonamiento correctas varían significativamente en longitud, y las respuestas correctas más cortas a menudo son suficientes, lo que indica un potencial de eficiencia sin explotar. Al explotar estos hallazgos, proponemos dos métodos livianos para mejorar la eficiencia de LRM. Primero, presentamos la dirección de eficiencia, una técnica de dirección de activación sin entrenamiento que modula el comportamiento de razonamiento a través de una sola dirección en el espacio de representación del modelo. En segundo lugar, desarrollamos RL de eficiencia auto-realizada, un marco de aprendizaje de refuerzo que equilibra dinámicamente la precisión y brevedad de la tarea al recompensar las soluciones correctas concisas. Experimentos extensos en siete columnas de LRM en múltiples puntos de referencia de razonamiento matemático demuestran que nuestros métodos reducen significativamente la longitud del razonamiento al tiempo que preservan o mejoran el rendimiento de la tarea. Nuestros resultados destacan que la eficiencia del razonamiento puede mejorarse aprovechando y guiando las capacidades intrínsecas de los modelos existentes de manera autoguiada.

Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original

Explorar y explotar la eficiencia inherente en grandes modelos de razonamiento para la mejora de la eficiencia autoguiada

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

LLMS lucha por realizar un razonamiento contrafactual con conocimiento paramétrico

SentinElagent: detección de anomalías basadas en gráficos en sistemas de múltiples agentes

Cómo es estar en medio de una teoría de la conspiración (según un experto en teorías de la conspiración)

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido