Radar: un marco dinámico de agente múltiple consciente del riesgo para la evaluación de seguridad de LLM a través de la colaboración especializada en roles

Resumen: los métodos de evaluación de seguridad existentes para modelos de lenguaje grande (LLM) sufren de limitaciones inherentes, incluidas las fallas de sesgo y detección del evaluador que surgen de la homogeneidad del modelo, que socavan colectivamente la robustez de los procesos de evaluación de riesgos. Este documento busca volver a examinar el paradigma de evaluación de riesgos mediante la introducción de un marco teórico que reconstruye el espacio de concepto de riesgo subyacente. Específicamente, descomponemos el espacio de concepto de riesgo latente en tres subespacios mutuamente excluyentes: el subespacio de riesgo explícito (que abarca las violaciones directas de las pautas de seguridad), el subespacio de riesgo implícito (capturando el contenido malicioso potencial que requiere un razonamiento contextual para la identificación) y el subspace sin riesgo. Además, proponemos Radar, un marco de evaluación colaborativo de múltiples agentes que aprovecha los mecanismos de debate de ronda múltiple a través de cuatro roles complementarios especializados y emplea mecanismos de actualización dinámica para lograr la autoevolución de las distribuciones de conceptos de riesgo. Este enfoque permite una cobertura integral de los riesgos explícitos e implícitos al tiempo que mitiga el sesgo del evaluador. Para validar la efectividad de nuestro marco, construimos un conjunto de datos de evaluación que comprende 800 casos desafiantes. Experimentos extensos en nuestro desafiante conjunto de pruebas y puntos de referencia públicos demuestran que el radar supera significativamente los métodos de evaluación de línea de base en múltiples dimensiones, incluida la precisión, la estabilidad y la sensibilidad al riesgo de autoevaluación. En particular, Radar logra una mejora del 28.87% en la precisión de identificación de riesgos en comparación con el método de evaluación de referencia más fuerte.

Publicado Originalme en export.arxiv.org El 30 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un nuevo enfoque para la evaluación de multicriterios en la clasificación de alternativas utilizando datos cardinales y ordinales

Planización de la tripulación unificada y optimización de replanación en sistemas de metro de múltiples líneas considerando la heterogeneidad de la fuerza laboral

Planificación de escala LLM: NL2Flow para la generación de problemas paramétricos y una evaluación rigurosa

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido