Resumen: Este artículo presenta la secuencia de primavera, una secuencia entera novedosa definida por una regla híbrida que combina la primalidad clásica con condiciones modulares basadas en dígitos. Específicamente, se incluye un número N en la secuencia si es primo o termina con un número primo de dígitos unitarios o cualquier longitud. En otras palabras, números que son primos o tienen al menos un sufijo principal. La secuencia resultante exhibe una estructura determinista pero no trivial, combinando propiedades teóricas numéricas con patrón simbólico. Proponemos la secuencia de primavera como un punto de referencia para evaluar las capacidades de razonamiento simbólico de modelos de idiomas grandes (LLM). El estudio está motivado por la necesidad de tallas de pruebas interpretables basadas en reglas que pueden evaluar la capacidad de una LLM para inferir reglas ocultas, validar hipótesis matemáticas y generalizar la lógica simbólica a escala. Una hipótesis clave explorada es: cada vez que un número en la secuencia de primavera es exactamente uno más que el mejor mayor o igual o igual o igual, la diferencia entre TI y el número anterior en la secuencia también es 1. Diseñamos un marco de evaluación y de evaluación de inmediato estructurado para probar esta hipótesis a través de múltiples LLMS de estado, incluidos ChatGPT, Copilot, Deepseek, Gemini, Grok y LLAMA. Los modelos tienen la tarea de identificar la regla subyacente, validar la hipótesis y generar los próximos 100,000 términos de la secuencia. Las métricas comparativas como la precisión de la inferencia de reglas, la evaluación de hipótesis, la validez de la secuencia y la calidad de explicación simbólica se utilizan para evaluar el rendimiento del modelo. Este trabajo contribuye con una nueva construcción matemática y una metodología reproducible para la evaluación comparativa de LLM en razonamiento simbólico, pruebas de hipótesis y generalización de patrones escalables, unir los dominios de la teoría de números, la inteligencia artificial e ingeniería de software.
Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original