En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->X-MAP: Análisis y creación de perfiles de clasificación errónea explicables para la detección de spam y phishing

X-MAP: Análisis y creación de perfiles de clasificación errónea explicables para la detección de spam y phishing

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las clasificaciones erróneas en la detección de spam y phishing son muy dañinas, ya que los falsos negativos exponen a los usuarios a ataques, mientras que los falsos positivos degradan la confianza. Los detectores existentes basados ​​en la incertidumbre pueden detectar errores potenciales, pero posiblemente sean engañosos y ofrezcan una interpretabilidad limitada. Este artículo presenta X-MAP, un marco explicable de análisis de clasificación errónea y elaboración de perfiles que revela patrones semánticos a nivel de tema detrás de las fallas del modelo. X-MAP combina atribuciones de funciones basadas en SHAP con factorización matricial no negativa para crear perfiles de temas interpretables para spam/phishing y mensajes legítimos clasificados de manera confiable, y mide la desviación de cada mensaje de estos perfiles usando la divergencia de Jensen-Shannon. Los experimentos con conjuntos de datos de SMS y phishing muestran que los mensajes mal clasificados exhiben una divergencia al menos dos veces mayor que los clasificados correctamente. Como detector, X-MAP alcanza hasta 0,98 AUROC y reduce la tasa de falso rechazo al 95% TRR a 0,089 en predicciones positivas. Cuando se utiliza como capa de reparación en detectores base, recupera hasta el 97 % de las predicciones correctas rechazadas erróneamente con una fuga moderada. Estos resultados demuestran la eficacia y la interpretabilidad de X-MAP para mejorar la detección de spam y phishing.

Publicado originalmente en export.arxiv.org el 17 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web