Resumen: Las clasificaciones erróneas en la detección de spam y phishing son muy dañinas, ya que los falsos negativos exponen a los usuarios a ataques, mientras que los falsos positivos degradan la confianza. Los detectores existentes basados en la incertidumbre pueden detectar errores potenciales, pero posiblemente sean engañosos y ofrezcan una interpretabilidad limitada. Este artículo presenta X-MAP, un marco explicable de análisis de clasificación errónea y elaboración de perfiles que revela patrones semánticos a nivel de tema detrás de las fallas del modelo. X-MAP combina atribuciones de funciones basadas en SHAP con factorización matricial no negativa para crear perfiles de temas interpretables para spam/phishing y mensajes legítimos clasificados de manera confiable, y mide la desviación de cada mensaje de estos perfiles usando la divergencia de Jensen-Shannon. Los experimentos con conjuntos de datos de SMS y phishing muestran que los mensajes mal clasificados exhiben una divergencia al menos dos veces mayor que los clasificados correctamente. Como detector, X-MAP alcanza hasta 0,98 AUROC y reduce la tasa de falso rechazo al 95% TRR a 0,089 en predicciones positivas. Cuando se utiliza como capa de reparación en detectores base, recupera hasta el 97 % de las predicciones correctas rechazadas erróneamente con una fuga moderada. Estos resultados demuestran la eficacia y la interpretabilidad de X-MAP para mejorar la detección de spam y phishing.
Publicado originalmente en export.arxiv.org el 17 de febrero de 2026.
Ver fuente original
