Resumen: Los modelos de lenguaje grande recientes han mostrado capacidades prometedoras en el razonamiento de forma larga, siguiendo las cadenas estructuradas de pensamiento antes de llegar a una respuesta final. Sin embargo, observamos que estas rutas de razonamiento tienden a incluir una redundancia sustancial; El análisis de los patrones de atención revela que los puntajes de atención están ampliamente dispersos, particularmente las respuestas incorrectas exhiben una mayor escasez de atención. En este artículo, demostramos que eliminar deliberadamente esta redundancia en el proceso de razonamiento mejora significativamente el rendimiento a través del pensamiento claro, es decir, eliminando la distracción. Específicamente, identificamos sistemáticamente la redundancia del razonamiento midiendo los puntajes de atención a nivel de token a un token especial de pensamiento final, que se adjunta a una instrucción explícita insertada para concluir cada paso de razonamiento intermedio. Además, proponemos la poda de estructura que prioriza la eliminación de tokens en trozos de razonamiento de baja contribución sobre tokens individuales. Después de desalojar tokens redundantes, eliminamos la instrucción inyectada de fin de pensamiento, luego reanudamos la generación de razonamiento. Demostramos que nuestro método mejora significativamente la precisión general en los puntos de referencia intensivos en razonamiento sin ninguna capacitación involucrada. En particular, nuestro método muestra un fuerte desempeño en los desafíos de referencia de competencia matemática como AIME y AMC, donde el razonamiento de la redundancia es más frecuente.
Publicado Originalme en export.arxiv.org El 14 de julio de 2025.
Ver Fuente Original