Resumen:Proponemos que la inteligencia artificial sin restricciones obedece una Segunda Ley análoga a la termodinámica, donde la entropía ética, definida como una medida de divergencia de los objetivos previstos, aumenta espontáneamente sin un trabajo de alineación continuo. Para los optimizadores basados en gradientes, definimos esta entropía sobre un conjunto finito de objetivos {g_i} como S = -{Sigma} p(g_i; theta) ln p(g_i; theta), y demostramos que su derivada temporal dS/dt >= 0, impulsada por el ruido de exploración y el juego de especificaciones. Derivamos el límite de estabilidad crítica para el trabajo de alineación como gamma_crit = (lambda_max / 2) ln N, donde lambda_max es el valor propio dominante de la Matriz de información de Fisher y N es el número de parámetros del modelo. Las simulaciones validan esta teoría. Un modelo de 7 mil millones de parámetros (N = 7 x 10^9) con lambda_max = 1,2 se desplaza desde una entropía inicial de 0,32 a 1,69 +/- 1,08 nats, mientras que un sistema regularizado con trabajo de alineación gamma = 20,4 (1,5 gamma_crit) mantiene la estabilidad en 0,00 +/- 0,00 nats (p = 4,19 x 10^-17, n = 20 ensayos). Este marco reformula la alineación de la IA como un problema de control termodinámico continuo, proporcionando una base cuantitativa para mantener la estabilidad y seguridad de los sistemas autónomos avanzados.
Publicado originalmente en export.arxiv.org el 17 de noviembre de 2025.
Ver fuente original
