Resumen: Los sistemas de seguridad de IA enfrentan un dilema de doble uso. Dado que la misma solicitud puede ser inofensiva o dañina dependiendo de quién lo logró y por qué, si el sistema toma decisiones basadas únicamente en el contenido de la solicitud, rechazará algunas consultas legítimas y dejará pasar las dañinas. Para abordar esto, proponemos un marco de control de acceso conceptual, basado en credenciales de usuario verificadas (como la afiliación institucional) y los clasificadores que asignan resultados de modelos a categorías de riesgo (como virología avanzada). El sistema permite respuestas solo cuando las credenciales verificadas del usuario coinciden con los requisitos de la categoría. Para la implementación de los clasificadores de salida del modelo, presentamos un enfoque teórico que utiliza pequeños módulos expertos de expertos integrados en el modelo de generador, capacitado con enrutamiento de gradiente, que permiten una detección eficiente de riesgos sin los problemas de brecha de capacidad de los monitores externos. Si bien quedan preguntas abiertas sobre los mecanismos de verificación, las categorías de riesgos y la implementación técnica, nuestro marco da el primer paso para permitir la gobernanza granular de las capacidades de IA: los usuarios verificados obtienen acceso a un conocimiento especializado sin restricciones arbitrarias, mientras que los adversarios están bloqueados de él. Este enfoque contextual reconcilia la utilidad del modelo con una seguridad robusta, abordando el dilema de doble uso.
Publicado Originalme en rss.arxiv.org El 14 de mayo de 2025.
Ver Fuente Original