Mejora de las habilidades de razonamiento generalizado de LLM por problemas de gráficos

Resumen: Los modelos de lenguaje grande (LLM) han hecho avances notables en las tareas de razonamiento, sin embargo, su rendimiento a menudo vacila en problemas novedosos y complejos. Los métodos continuos de pretruación continuos específicos del dominio (CPT), como los adaptados para el razonamiento matemático, han mostrado prometedor pero carecen de transferibilidad a tareas de razonamiento más amplias. En este trabajo, es pionero en el uso del razonamiento del problema gráfico (GPR) para mejorar las capacidades de razonamiento general de LLM. Las tareas de GPR, que abarcan la búsqueda de rutas, el análisis de red, el cálculo numérico y el razonamiento topológico, requieren un razonamiento lógico y relacional sofisticado, lo que las hace ideales para enseñar diversos patrones de razonamiento. Para lograr esto, presentamos Graphpile, el primer corpus a gran escala diseñado específicamente para CPT utilizando datos GPR. Con 10.900 millones de tokens en 23 tareas gráficas, el conjunto de datos incluye la cadena de pensamiento, el programa de pensamiento, la traza de ejecución y los datos de gráficos del mundo real. Utilizando Graphpile, entrenamos GraphMind en el popular Llama 3 y 3.1, así como en Gemma 2, logrando una precisión de hasta 4.9 por ciento más alta en el razonamiento matemático y una mejora de hasta 21.2 por ciento en tareas de razonamiento no matemático, como el razonamiento lógico y de sentido común. Al ser el primero en aprovechar el GPR para mejorar los patrones de razonamiento e introducir el primer conjunto de datos de este tipo, nuestro trabajo cierra la brecha entre las capacidades de prisión previa al dominio y el razonamiento universal, avanzando la adaptabilidad y la robustez de las LLM.

Publicado Originalme en export.arxiv.org El 23 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Pre-Act: la planificación y el razonamiento de varios pasos mejora la actuación en los agentes de LLM

La promesa y los límites de los LLM en la construcción de pruebas y sugerencias para problemas lógicos en sistemas de tutoría inteligente

Agentes de investigación de IA para el aprendizaje automático: búsqueda, exploración y generalización en MLE-Bench

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido