EntroCoT: mejora de la cadena de pensamiento mediante la segmentación adaptativa guiada por entropía

Resumen: Las indicaciones de cadena de pensamiento (CoT) han mejorado significativamente las capacidades de razonamiento matemático de los modelos de lenguaje grandes. Descubrimos que los conjuntos de datos de ajuste fino existentes frecuentemente sufren del problema de “respuesta correcta pero razonamiento incorrecto”, donde las respuestas finales correctas se derivan de pasos intermedios alucinados, redundantes o lógicamente inválidos. Este documento propone EntroCoT, un marco unificado para identificar y refinar automáticamente los rastros de supervisión de CoT de baja calidad. EntroCoT primero propone un mecanismo basado en entropía para segmentar el rastro de razonamiento en múltiples pasos en coyunturas inciertas, y luego introduce un mecanismo basado en implementación de Monte Carlo para evaluar la contribución marginal de cada paso. Al filtrar con precisión muestras de razonamiento engañosas, EntroCoT construye un conjunto de datos de alta calidad donde cada paso intermedio en cada rastro de razonamiento facilita la respuesta final. Amplios experimentos con puntos de referencia matemáticos demuestran que el ajuste fino del subconjunto construido por EntroCoT supera consistentemente las bases de la supervisión del conjunto de datos completo.

Publicado originalmente en export.arxiv.org el 7 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Modelos pequeños, grandes resultados: lograr la extracción de intención superior a través de la descomposición

Un marco multimodal para la detección de la depresión durante Covid-19 mediante la recolección de redes sociales: un conjunto de datos y un método novedosos

OmegaUse: creación de un agente GUI de uso general para la ejecución autónoma de tareas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido