Resumen: Proponemos un método novedoso que aproveche los autoencoders dispersos (SAE) y las técnicas de agrupamiento para analizar las representaciones de token internos de modelos de idiomas grandes (LLM) y generaciones de guía en tareas de razonamiento matemático. Nuestro enfoque primero entrena un SAE para generar representaciones vectoriales dispersas para tokens de entrenamiento, luego aplica la agrupación de K-Means para construir un gráfico donde los vértices representan grupos de tokens y bordes ponderados capturan transiciones de token secuencial. Usando este gráfico, definimos una función de recompensa basada en el peso de borde para cuantificar la adherencia a las trazas de razonamiento establecidas, identificando así las trayectorias de razonamiento de explotación. Además, medimos la diversidad de generación de la agrupación para evaluar el alcance de la exploración. Nuestros hallazgos indican que equilibrar tanto la explotación como la exploración es crucial para lograr una alta precisión en las tareas de razonamiento matemático. Durante la generación, el SAE puede servir como un modelo de recompensa escalable para guiar a las generaciones, asegurando una compensación equilibrada entre explotación y exploración. Esto evita comportamientos extremos en cualquier dirección, fomentando en última instancia un proceso de razonamiento de mayor calidad en LLM.
Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original
