Resumen:Descubrir ecuaciones rectoras compactas a partir de observaciones experimentales es uno de los objetivos definitorios de la ciencia cuantitativa; sin embargo, los procesos de descubrimiento práctico fallan rutinariamente cuando las mediciones son ruidosas, las variables de estado relevantes no se observan o múltiples estructuras simbólicas explican los datos igualmente bien dentro de la incertidumbre estadística. Aquí presentamos SymLang (descubrimiento de ecuaciones guiado por lenguaje con restricciones de simetría), un marco unificado que reúne tres ideas previamente separadas: (i) gramáticas con restricciones de simetría escritas que codifican análisis dimensional, invariancia de teoría de grupos y restricciones de paridad como reglas estrictas de producción, eliminando en promedio el 71,3% de los árboles de expresión candidatos antes de cualquier ajuste; (ii) síntesis de programas guiada por modelos de lenguaje en la que un proponente de parámetros 7B ajustado, condicionado a descriptores de datos interpretables, navega eficientemente por el espacio de búsqueda restringido; y (iii) selección del modelo bayesiano regularizado por MDL junto con un análisis de estabilidad de arranque por bloques que cuantifica la incertidumbre estructural en lugar de comprometerse con una única mejor ecuación. En 133 sistemas dinámicos que abarcan mecánica clásica, electrodinámica, termodinámica, dinámica de poblaciones y osciladores no lineales, SymLang logra una tasa de recuperación estructural exacta del 83,7 % con un 10 % de ruido observacional (una mejora de 22,4 puntos porcentuales con respecto a la siguiente mejor línea de base), al tiempo que reduce el error de extrapolación fuera de distribución en un 61 % y casi elimina las violaciones de las leyes de conservación (3,1 x 10-3). vs. deriva física de 187,3 x 10-3 para el competidor más cercano). En todos los regímenes probados, el marco identifica correctamente la degeneración estructural, informándola explícitamente en lugar de arrojar una ecuación única claramente errónea. El marco es totalmente de código abierto y reproducible, lo que proporciona un camino basado en principios desde datos sin procesar hasta leyes simbólicas interpretables y físicamente auditables.
Publicado originalmente en export.arxiv.org el 9 de marzo de 2026.
Ver fuente original
