Sobre la planificación de la fuerza de razonamiento en grandes modelos de razonamiento

Resumen: Estudios recientes revelan empíricamente que los grandes modelos de razonamiento (LRM) pueden asignar automáticamente más fortalezas de razonamiento (es decir, el número de tokens de razonamiento) para problemas más difíciles, exhibir dificultad para el mejor rendimiento de la tarea. Si bien este fenómeno de asignación de resistencia de razonamiento automático se ha observado ampliamente, su mecanismo subyacente permanece en gran medida inexplorado. Con este fin, proporcionamos explicaciones para este fenómeno desde la perspectiva de las activaciones del modelo. Encontramos evidencia de que los LRM planifican las fortalezas de razonamiento en sus activaciones incluso antes de la generación, con esta fuerza de razonamiento causalmente controlada por la magnitud de un vector direccional prealocado. Específicamente, mostramos que el número de tokens de razonamiento es predecible basado únicamente en las activaciones de la pregunta utilizando sondas lineales, lo que indica que los LRM estiman la resistencia de razonamiento requerida de antemano. Luego descubrimos que los LRM codifican esta resistencia de razonamiento a través de un vector direccional prealocado incrustado en las activaciones del modelo, donde la magnitud del vector modula la resistencia de razonamiento. Restar este vector puede conducir a una reducción del número y rendimiento del token de razonamiento, mientras que agregar este vector puede conducir a un mayor número de token de razonamiento e incluso un rendimiento mejorado. Además, revelamos que este vector de dirección produce constantemente una predicción positiva de longitud de razonamiento, y modifica los logits del token de finalización de fin de condición para afectar la longitud del razonamiento. Finalmente, demostramos dos aplicaciones potenciales de nuestros hallazgos: detección de comportamiento de pensamiento excesivo y habilitando un razonamiento eficiente sobre problemas simples. Nuestro trabajo proporciona nuevas ideas sobre los mecanismos internos de razonamiento en LRMS y ofrece herramientas prácticas para controlar sus comportamientos de razonamiento. Nuestro código está disponible en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 10 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Falsificación guiada por verificación para RL seguro a través de una abstracción explicable y exploración de riesgos conscientes

Agentes de investigación de IA para el aprendizaje automático: búsqueda, exploración y generalización en MLE-Bench

MSQA: Benchmarking LLMS sobre razonamiento y conocimiento de ciencias de los materiales a nivel de posgrado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido