Resumen: Proponemos FAME (Explicaciones mínimas abstractas formales), una nueva clase de explicaciones abductivas basadas en la interpretación abstracta. FAME es el primer método que escala a grandes redes neuronales y al mismo tiempo reduce el tamaño de la explicación. Nuestra principal contribución es el diseño de dominios de perturbación dedicados que eliminan la necesidad de un orden transversal. FAME reduce progresivamente estos dominios y aprovecha los límites basados en LiRPA para descartar características irrelevantes, convergiendo en última instancia en una explicación mínima abstracta formal. Para evaluar la calidad de la explicación, introducimos un procedimiento que mide la distancia en el peor de los casos entre una explicación mínima abstracta y una explicación mínima verdadera. Este procedimiento combina ataques adversarios con un paso de refinamiento VERIX+ opcional. Comparamos FAME con VERIX+ y demostramos ganancias consistentes tanto en el tamaño de la explicación como en el tiempo de ejecución en redes neuronales de mediana y gran escala.
Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original
