Resumen: El equipo rojo ha evolucionado desde sus orígenes en aplicaciones militares para convertirse en una metodología ampliamente adoptada en ciberseguridad y IA. En este artículo, analizamos críticos la práctica del equipo de AI Red. Argumentamos que a pesar de su popularidad actual en la gobernanza de la IA, existe una brecha significativa entre la intención original de Red Teaming como un ejercicio de pensamiento crítico y su enfoque limitado en descubrir fallas a nivel de modelo en el contexto de la IA generativa. Los esfuerzos actuales de equipo de AI Red se centran predominantemente en las vulnerabilidades del modelo individual, al tiempo que viene los sistemas sociotécnicos más amplios y los comportamientos emergentes que surgen de interacciones complejas entre modelos, usuarios y entornos. Para abordar esta deficiencia, proponemos un marco integral que operacionaliza el equipo rojo en los sistemas de inteligencia artificial en dos niveles: sistema de sistema rojo del sistema macro a nivel que abarca todo el ciclo de vida del desarrollo de IA y el equipo rojo modelo a nivel micro. Basándose en la experiencia de la experiencia cibernética y la teoría de sistemas, proponemos un conjunto de recomendaciones. En estos, enfatizamos que el equipo efectivo de AI Red Red requiere equipos multifuncionales que examinen los riesgos emergentes, las vulnerabilidades sistémicas y la interacción entre los factores técnicos y sociales.
Publicado Originalme en export.arxiv.org El 8 de julio de 2025.
Ver Fuente Original