Resumen: Los recientes modelos de razonamiento a gran escala han logrado un rendimiento de vanguardia en los desafiantes puntos de referencia matemáticos, sin embargo, los mecanismos internos subyacentes a su éxito siguen siendo poco conocidos. En este trabajo, presentamos la noción de un gráfico de razonamiento, extraído agrupando representaciones de estado oculto en cada paso de razonamiento, y analizamos sistemáticamente tres propiedades teóricas gráficas clave: ciclicidad, diámetro e índice de mundo pequeño, en múltiples tareas (GSM8K, Math500, AIME 2024). Nuestros hallazgos revelan que los modelos de razonamiento destilados (por ejemplo, Deepseek-R1-Distill-Qwen-32b) exhiben ciclos significativamente más recurrentes (aproximadamente 5 por muestra), diámetros gráficos sustancialmente más grandes y características pronunciadas del mundo pequeño (aproximadamente 6x) en comparación con sus contrapartes base. En particular, estas ventajas estructurales crecen con la dificultad de la tarea y la capacidad del modelo, con la detección de ciclo en la escala de 14b y el diámetro de exploración maximizado en la variante 32B, que se correlaciona positivamente con la precisión. Además, mostramos que el ajuste fino supervisado en un conjunto de datos mejorado expande sistemáticamente los diámetros de los gráficos de razonamiento en conjunto con ganancias de rendimiento, ofreciendo pautas concretas para el diseño de conjuntos de datos destinados a aumentar las capacidades de razonamiento. Al unir ideas teóricas sobre las estructuras de gráficos de razonamiento con recomendaciones prácticas para la construcción de datos, nuestro trabajo avanza tanto la interpretabilidad como la eficacia de los grandes modelos de razonamiento.
Publicado Originalme en rss.arxiv.org El 8 de junio de 2025.
Ver Fuente Original