Resumen:La rápida evolución de la IA generativa requiere evaluaciones de seguridad sólidas. Sin embargo, los conjuntos de datos de seguridad actuales están predominantemente centrados en el inglés, no logran capturar riesgos específicos en contextos socioculturales distintos del inglés, como el coreano, y a menudo se limitan a la modalidad de texto. Para abordar esta brecha, presentamos AssurAI, un nuevo conjunto de datos multimodal coreano con control de calidad para evaluar la seguridad de la IA generativa. Primero, definimos una taxonomía de 35 factores de riesgo de IA distintos, adaptados de marcos establecidos por un grupo multidisciplinario de expertos para cubrir tanto los daños universales como la relevancia para el contexto sociocultural coreano. En segundo lugar, aprovechando esta taxonomía, construimos y lanzamos AssurAI, un conjunto de datos multimodal coreano a gran escala que comprende 11,480 instancias de texto, imágenes, video y audio. En tercer lugar, aplicamos el riguroso proceso de control de calidad utilizado para garantizar la integridad de los datos, que incluye una construcción de dos fases (es decir, siembra dirigida por expertos y escalamiento de colaboración colectiva), triple anotación independiente y un ciclo iterativo de formación de equipos rojos de expertos. Nuestro estudio piloto valida la eficacia de AssurAI en la evaluación de la seguridad de los LLM recientes. Lanzamos AssurAI al público para facilitar el desarrollo de sistemas de IA generativa más seguros y confiables para la comunidad coreana.
Publicado originalmente en export.arxiv.org el 26 de noviembre de 2025.
Ver fuente original
