Resumen: El razonamiento de la cadena de pensamiento (COT) expone el proceso de pensamiento intermedio de los modelos de lenguaje grande (LLM), sin embargo, verificar esas huellas a escala sigue sin resolverse. En respuesta, presentamos la idea de la decisión Pivots-Minimal y los puntos de control verificables que cualquier ruta de razonamiento correcta debe visitar. Presumimos que el razonamiento correcto, aunque estilísticamente diverso, convergen en el mismo conjunto de pivote, mientras que los incorrectos violan al menos un pivote. Aprovechando esta propiedad, proponemos una tubería de autodeninuamiento que (i) muestra diversas rutas de razonamiento y minas compartidas de decisión, (ii) comprime cada traza en un razonamiento de ruta corta centrada en el pivote utilizando un verificador auxiliar, y (iii) post-plena el modelo utilizando sus salidas autogeneradas. El método propuesto alinea el razonamiento sin datos de razonamiento de verdad en tierra o métricas externas. Los experimentos en puntos de referencia estándar como LOGIQA, MEDQA y MATH500 muestran la efectividad de nuestro método.
Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original