En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->La trampa de alineación: barreras de complejidad

La trampa de alineación: barreras de complejidad

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Establecemos barreras de complejidad computacional fundamental para verificar la seguridad de la IA como escala de capacidades del sistema. Nuestros principales resultados muestran que para los sistemas de IA con expresividad Exp $ (m) $ por encima de un umbral crítico $ tau $, la verificación de seguridad requiere tiempo exponencial y es complejo. Formalizamos la dinámica de escala de riesgo de capacidad (CRS), lo que demuestra cómo el aumento de la capacidad de IA impulsa los requisitos de seguridad social hacia la perfección, creando una tensión ineludible con complejidad de verificación. A través de cuatro teoremas centrales, demostramos que (1) la complejidad de la verificación crece exponencialmente con la expresividad del sistema, (2) las políticas seguras comprenden como máximo una fracción de $ 2^{-2^m} $ del espacio de políticas, (3) ningún conjunto finito de técnicas de alineación puede proporcionar cobertura universal y (4) propiedades de seguridad robustas formuladas medidas de zara para conjuntos neurales. Estos resultados caracterizan una “brecha de intracabilidad” donde los requisitos de seguridad prácticos se encuentran dentro de la región de la intratabilidad computacional. Concluimos presentando un trilema estratégico: el desarrollo de la IA debe limitar la complejidad del sistema para mantener la seguridad verificable, aceptar riesgos no verificables al tiempo de escala o desarrollar paradigmas de seguridad fundamentalmente nuevos más allá de la verificación. Nuestro trabajo proporciona el primer análisis teórico de complejidad sistemática de la alineación de la IA y establece límites rigurosos que cualquier enfoque de seguridad debe enfrentar. Actualmente está en progreso una verificación formal de los teoremas centrales en Lean4.

Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web