Resumen: El razonamiento de la cadena de pensamiento (COT) se ha convertido en una herramienta poderosa para mejorar el rendimiento del modelo de lenguaje grande en tareas complejas, pero el trabajo reciente muestra que los pasos de razonamiento a menudo no influyen causalmente en la respuesta final, creando resultados quebradizos y no confiables. Los enfoques previos se centran principalmente en medir la fidelidad, mientras que los métodos para mejorarla sistemáticamente siguen siendo limitados. Introducimos un razonamiento fiel a través del entrenamiento de intervención (FRIT), un método de alineación escalable que capacita a los modelos para producir un razonamiento causalmente consistente al aprender de ejemplos sistemáticamente corruptos. FRIT genera datos de entrenamiento sintético al intervenir en los pasos de razonamiento individual en COT generadas por el modelo, creando pares fieles/infieles que resaltan cuando el razonamiento se descompone. Luego aplicamos la optimización de preferencia directa para enseñar modelos a preferir rutas de razonamiento causalmente consistentes. Evaluación de QWEN3-8B y Mistral-7B-V0.1 a través de tareas de razonamiento fáctico y simbólico, FRIT aumenta el razonamiento fiel en $ 3.4 $ porcentaje de puntos por porcentaje en Mistral en GSM8K al tiempo que mejora la precisión en $ 7.6 $ porcentaje de porcentaje. Nuestro enfoque proporciona el primer método escalable y sin supervisión para capacitar modelos de lenguaje para producir un razonamiento más confiable e interpretable, abordando una brecha crítica entre el rendimiento del razonamiento y la confiabilidad. Lanzamos nuestro código en href {esta URL HTTPS}.
Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original