Rutas de razonamiento correctas Visite los pivotes de decisión compartida

Resumen: El razonamiento de la cadena de pensamiento (COT) expone el proceso de pensamiento intermedio de los modelos de lenguaje grande (LLM), sin embargo, verificar esas huellas a escala sigue sin resolverse. En respuesta, presentamos la idea de la decisión Pivots-Minimal y los puntos de control verificables que cualquier ruta de razonamiento correcta debe visitar. Presumimos que el razonamiento correcto, aunque estilísticamente diverso, convergen en el mismo conjunto de pivote, mientras que los incorrectos violan al menos un pivote. Aprovechando esta propiedad, proponemos una tubería de autodeninuamiento que (i) muestra diversas rutas de razonamiento y minas compartidas de decisión, (ii) comprime cada traza en un razonamiento de ruta corta centrada en el pivote utilizando un verificador auxiliar, y (iii) post-plena el modelo utilizando sus salidas autogeneradas. El método propuesto alinea el razonamiento sin datos de razonamiento de verdad en tierra o métricas externas. Los experimentos en puntos de referencia estándar como LOGIQA, MEDQA y MATH500 muestran la efectividad de nuestro método.

Publicado Originalme en export.arxiv.org El 28 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Puede un dominio ayudar a otros? Un estudio centrado en los datos sobre el razonamiento de múltiples dominios a través del aprendizaje de refuerzo

Trump está presionando a Leucovorin como un nuevo tratamiento para el autismo. ¿Qué es?

Guardrentioner-VL: salvaguardar VLM a través del razonamiento reforzado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido