Resumen: los modelos de lenguaje grande basados en transformadores (LLM) han demostrado notables capacidades de razonamiento, como codificar y resolver problemas matemáticos a la inferencia de sentido común. Si bien estas tareas varían en complejidad, todas requieren modelos para integrar y calcular sobre información estructurada. A pesar de los recientes esfuerzos para revertir el comportamiento de LLM de ingeniería a través de experimentos controlados, nuestra comprensión de cómo estos modelos internalizan y ejecutan algoritmos complejos sigue siendo limitada. El progreso se ha limitado en gran medida a estudios a pequeña escala o tareas poco profundas, como la coincidencia básica de patrones aritméticos y gramaticales. Una barrera para una comprensión más profunda es la naturaleza de los datos previos a la preparación: vasta, heterogénea y, a menudo, mal anotada, lo que dificulta aislar mecanismos de razonamiento. Para cerrar esta brecha, introducimos un conjunto de datos a gran escala, completamente abierto y anotado por complejidad de trazas de razonamiento lógico de primer orden, diseñados para sondear y analizar el razonamiento algorítmico en LLM. El conjunto de datos consta de 3,5 mil millones de tokens, incluidos 8,8 millones de ejemplos acuáticos y anotados por humanos LLM y 7,5 millones de ejemplos generados sintéticamente. Cada ejemplo sintético es verificablemente correcto, producido por un solucionador de teorema automatizado personalizado y acompañado de metadatos que rastrean su procedencia algorítmica. Nuestro objetivo es proporcionar un artefacto escalable e interpretable para estudiar cómo los LLM aprenden y generalizan los procesos de razonamiento simbólico, allanando el camino para investigaciones más transparentes y específicas sobre las capacidades algorítmicas de los modelos modernos.
Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original