Resumen: los métodos de evaluación de seguridad existentes para modelos de lenguaje grande (LLM) sufren de limitaciones inherentes, incluidas las fallas de sesgo y detección del evaluador que surgen de la homogeneidad del modelo, que socavan colectivamente la robustez de los procesos de evaluación de riesgos. Este documento busca volver a examinar el paradigma de evaluación de riesgos mediante la introducción de un marco teórico que reconstruye el espacio de concepto de riesgo subyacente. Específicamente, descomponemos el espacio de concepto de riesgo latente en tres subespacios mutuamente excluyentes: el subespacio de riesgo explícito (que abarca las violaciones directas de las pautas de seguridad), el subespacio de riesgo implícito (capturando el contenido malicioso potencial que requiere un razonamiento contextual para la identificación) y el subspace sin riesgo. Además, proponemos Radar, un marco de evaluación colaborativo de múltiples agentes que aprovecha los mecanismos de debate de ronda múltiple a través de cuatro roles complementarios especializados y emplea mecanismos de actualización dinámica para lograr la autoevolución de las distribuciones de conceptos de riesgo. Este enfoque permite una cobertura integral de los riesgos explícitos e implícitos al tiempo que mitiga el sesgo del evaluador. Para validar la efectividad de nuestro marco, construimos un conjunto de datos de evaluación que comprende 800 casos desafiantes. Experimentos extensos en nuestro desafiante conjunto de pruebas y puntos de referencia públicos demuestran que el radar supera significativamente los métodos de evaluación de línea de base en múltiples dimensiones, incluida la precisión, la estabilidad y la sensibilidad al riesgo de autoevaluación. En particular, Radar logra una mejora del 28.87% en la precisión de identificación de riesgos en comparación con el método de evaluación de referencia más fuerte.
Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original
