Resumen: Las indicaciones de cadena de pensamiento (CoT) han mejorado significativamente las capacidades de razonamiento matemático de los modelos de lenguaje grandes. Descubrimos que los conjuntos de datos de ajuste fino existentes frecuentemente sufren del problema de “respuesta correcta pero razonamiento incorrecto”, donde las respuestas finales correctas se derivan de pasos intermedios alucinados, redundantes o lógicamente inválidos. Este documento propone EntroCoT, un marco unificado para identificar y refinar automáticamente los rastros de supervisión de CoT de baja calidad. EntroCoT primero propone un mecanismo basado en entropía para segmentar el rastro de razonamiento en múltiples pasos en coyunturas inciertas, y luego introduce un mecanismo basado en implementación de Monte Carlo para evaluar la contribución marginal de cada paso. Al filtrar con precisión muestras de razonamiento engañosas, EntroCoT construye un conjunto de datos de alta calidad donde cada paso intermedio en cada rastro de razonamiento facilita la respuesta final. Amplios experimentos con puntos de referencia matemáticos demuestran que el ajuste fino del subconjunto construido por EntroCoT supera consistentemente las bases de la supervisión del conjunto de datos completo.
Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original
