DTS: mejora de modelos de razonamiento grandes mediante la decodificación de bocetos de árboles

Resumen: Los grandes modelos de razonamiento (LRM) demuestran un rendimiento sólido en tareas de razonamiento complejas, pero a menudo sufren de pensamiento excesivo, lo que produce rastros de cadena de pensamiento (CoT) excesivamente largos que aumentan el costo de inferencia y pueden degradar la precisión. Nuestro análisis revela una clara anticorrelación entre la longitud del razonamiento y la precisión, donde a través de múltiples decodificaciones estocásticas, las rutas de razonamiento cortas logran consistentemente la mayor corrección, mientras que las más largas acumulan errores y repeticiones. Estos caminos cortos de razonamiento óptimo se pueden encontrar idealmente mediante una enumeración completa del espacio de razonamiento. Sin embargo, el espacio de razonamiento estructurado en árbol crece exponencialmente con la longitud de la secuencia, lo que hace que la exploración exhaustiva sea inviable. Para abordar esto, proponemos DTS, un marco de decodificación independiente del modelo que esboza el espacio de razonamiento ramificándose selectivamente en tokens de alta entropía y aplica una parada temprana para seleccionar la ruta de razonamiento completa más corta. Este enfoque se aproxima a la solución óptima que mejora tanto la eficiencia como la precisión, sin requerir capacitación o supervisión adicional. Los experimentos en conjuntos de datos AIME2024 y AIME2025 con DeepSeek-R1-Distill-Qwen-7B y 1.5B muestran que DTS mejora la precisión hasta en un 8%, reduce la duración promedio del razonamiento en un 23% y disminuye la frecuencia de repetición en un 12%, lo que demuestra la capacidad de DTS para un razonamiento LRM escalable y eficiente.

Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Contaminación de datos de tiempo de búsqueda

Los modelos de idiomas grandes son tomadores de decisiones casi óptimos con un comportamiento de aprendizaje no humano

HAG: Generación de agentes basada en árboles demográficos jerárquicos para simulación adaptativa a temas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido