La trampa de alineación: barreras de complejidad

Resumen: Establecemos barreras de complejidad computacional fundamental para verificar la seguridad de la IA como escala de capacidades del sistema. Nuestros principales resultados muestran que para los sistemas de IA con expresividad Exp $ (m) $ por encima de un umbral crítico $ tau $, la verificación de seguridad requiere tiempo exponencial y es complejo. Formalizamos la dinámica de escala de riesgo de capacidad (CRS), lo que demuestra cómo el aumento de la capacidad de IA impulsa los requisitos de seguridad social hacia la perfección, creando una tensión ineludible con complejidad de verificación. A través de cuatro teoremas centrales, demostramos que (1) la complejidad de la verificación crece exponencialmente con la expresividad del sistema, (2) las políticas seguras comprenden como máximo una fracción de $ 2^{-2^m} $ del espacio de políticas, (3) ningún conjunto finito de técnicas de alineación puede proporcionar cobertura universal y (4) propiedades de seguridad robustas formuladas medidas de zara para conjuntos neurales. Estos resultados caracterizan una “brecha de intracabilidad” donde los requisitos de seguridad prácticos se encuentran dentro de la región de la intratabilidad computacional. Concluimos presentando un trilema estratégico: el desarrollo de la IA debe limitar la complejidad del sistema para mantener la seguridad verificable, aceptar riesgos no verificables al tiempo de escala o desarrollar paradigmas de seguridad fundamentalmente nuevos más allá de la verificación. Nuestro trabajo proporciona el primer análisis teórico de complejidad sistemática de la alineación de la IA y establece límites rigurosos que cualquier enfoque de seguridad debe enfrentar. Actualmente está en progreso una verificación formal de los teoremas centrales en Lean4.

Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Cómo revisan las personas creencias inconsistentes? Examinar la revisión de creencias en humanos con estudios de usuarios

Equilibrio de trabajo y vida: una guía de ingeniería para la realización

Razonamiento M2: empoderamiento de MLLM con razonamiento general y espacial unificado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido