Resumen: Grandes modelos de razonamiento (LRM) tienen un rendimiento significativamente avanzado en tareas complejas, pero su tendencia a pensar demasiado introduce ineficiencias. Este estudio investiga los mecanismos internos del aprendizaje de refuerzo (RL) LRM entrenados cuando se le solicita a salvar el pensamiento, revelando tres modos de pensamiento distintos: sin pensamiento (NT), pensamiento explícito (ET) y pensamiento implícito (IT). A través del análisis exhaustivo de la confianza en la terminación del pensamiento, la atención del pensamiento a la generación y el enfoque atencional en las secciones de entrada, descubrimos factores clave que influyen en los comportamientos de razonamiento. Además, encontramos que NT reduce la longitud de salida a costo de precisión, mientras que ET y TI mantienen la precisión con una longitud de respuesta reducida. Nuestros hallazgos exponen inconsistencias fundamentales en LRM optimizados por RL, lo que requiere mejoras adaptativas para una eficiencia confiable.
Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original