Resumen: Se ha demostrado que los paradigmas de razonamiento cuidadosamente diseñados, como la cadena de pensamiento (COT) y el árbol de pensamiento (TOT), pueden mejorar las capacidades de razonamiento de los modelos de lenguaje pequeño mediante el pensamiento detallado y la búsqueda de pensamiento extenso, factores de ramificación ilimitados en el espacio de búsqueda crean un consumo de razonamiento prohibitivo. Sin embargo, estos métodos entran en la trampa del razonamiento óptimo local, lo que significa que el modelo carece de una perspectiva global mientras resuelve problemas. Proponemos un nuevo paradigma de razonamiento llamado Razón de Future (RFF), que genera rutas de razonamiento mediante un razonamiento bidireccional que combina la planificación de arriba hacia abajo con la acumulación de razonamiento ascendente. La esencia de RFF se encuentra en su mecanismo de razonamiento inverso, que prioriza las relaciones lógicas del núcleo e impone restricciones orientadas a objetivos en los pasos intermedios, reduciendo así el espacio de búsqueda y la acumulación de errores de la mitigación inherente al razonamiento hacia adelante secuencial. Las evaluaciones empíricas en diversos experimentos demuestran que RFF supera a los paradigmas convencionales con mayor precisión y menos espacio de búsqueda para resolver tareas complejas.
Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original