Resumen: Los modelos de lenguaje grande (LLM) han hecho avances notables en las tareas de razonamiento, sin embargo, su rendimiento a menudo vacila en problemas novedosos y complejos. Los métodos continuos de pretruación continuos específicos del dominio (CPT), como los adaptados para el razonamiento matemático, han mostrado prometedor pero carecen de transferibilidad a tareas de razonamiento más amplias. En este trabajo, es pionero en el uso del razonamiento del problema gráfico (GPR) para mejorar las capacidades de razonamiento general de LLM. Las tareas de GPR, que abarcan la búsqueda de rutas, el análisis de red, el cálculo numérico y el razonamiento topológico, requieren un razonamiento lógico y relacional sofisticado, lo que las hace ideales para enseñar diversos patrones de razonamiento. Para lograr esto, presentamos Graphpile, el primer corpus a gran escala diseñado específicamente para CPT utilizando datos GPR. Con 10.900 millones de tokens en 23 tareas gráficas, el conjunto de datos incluye la cadena de pensamiento, el programa de pensamiento, la traza de ejecución y los datos de gráficos del mundo real. Utilizando Graphpile, entrenamos GraphMind en el popular Llama 3 y 3.1, así como en Gemma 2, logrando una precisión de hasta 4.9 por ciento más alta en el razonamiento matemático y una mejora de hasta 21.2 por ciento en tareas de razonamiento no matemático, como el razonamiento lógico y de sentido común. Al ser el primero en aprovechar el GPR para mejorar los patrones de razonamiento e introducir el primer conjunto de datos de este tipo, nuestro trabajo cierra la brecha entre las capacidades de prisión previa al dominio y el razonamiento universal, avanzando la adaptabilidad y la robustez de las LLM.
Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original