Everything from paper

论文阅读

USENIX SUPOR: Precise and Scalable Sensitive User Input Detection for Android Apps

abstract
  • 主要描述做了一个工具 SUPOR,一个对于用户输入的静态检测工具。
Introduction
  • 之前的研究主要集中于智能手机中被操作系统以及架构 API 所管理涉及的隐私信息。忽略了用户的输入,现在很多 app 要求用户输入各种,所以对于用户的输入不能忽视。
  • 主要的识别隐私用户输入的挑战
    • 如何系统识别用户的输入域在 app 的 UI 中
    • 如何识别哪些输入域是敏感的
    • 如何将敏感输入字段与存储他们 value 的应用程序中的变量相关联
  • 分析 UI 隐私分析输入区域通过利用UI渲染,几何布局分析和NLP技术。

~问:关于这个输入点这个地方,他假设说的是用 HTTP 明文传输。我就在想如果输入点输入的东西用 HTTPS 或者加密了的话,这个寻找输入点是不是没有意义呀~

An Empirical Evaluation of GDPR Compliance Violations in Android mHealth Apps

  • GDPR 三种违规行为
    • 隐私策略不完整
    • 数据收集的不一致
    • 数据传输的不安全
  • 一个是 privacy policy 完整情况,一个是数据的收集范围,一个是传输方式的安全性
  • 对于 GDPR 的对照检测只是做到了基本要求,还有其他可以检测的地方
  • NLP 技术使用一般,但是他有隐私政策语料库
  • 技术大杂烩的感觉,不过整体方案挺完整的感觉

Polisis: Automated Analysis and Presentation of Privacy Policies Using Deep Learning

  • 整体实现了一个隐私政策查询系统以及一个问答系统,缺乏可用的、可扩展的工具来处理隐私策略的广度和深度
  • privacy icons
  • 分层次架构
  • image-20201116112805125.png

KnIGHT: Mapping Privacy Policies to GDPR

  • 自动对应 privacy policies 与 GDPR,看他符合哪一个片段。
  • 里面有一些工具可以用

学术规范与论文

  • 数学非常重要、研究兴趣、积累论文(数量、质量)
  • 论文精读要达到抛开论文能自己完成所有的推导,自主完成复现,最少 5 遍以上
  • 确定具体研究点、研究的持续性、给予足够重视、积极参与学术活动
  • 标题
    • 反映核心技术
    • 尽量精炼简洁
  • 摘要
    • 标题的扩充
    • 覆盖亮点、出发点、效果
  • 引言
    • 摘要的扩充
    • 研究背景
    • 提出问题及原因
    • 文献调研
    • 本文贡献
  • 参考文献
    • 作者、标题、刊物/会议名称、卷号、页数、月份、年份
    • 不同领域对于参考文献的要求不同
  • 复稿——10遍左右
    • 第二遍细改,理清思路
    • 第三遍速读,调整逻辑
  • 与审稿人打交道
    • 批判接受意见
    • 心存感激
    • 学会忍耐
  • 逻辑、语言、数学(GRE 内容)
  • 一定要主动找老师
  • 实验过程->结果与讨论->结论->引言
  • 返修,按审稿人的问题逐条回复。列出改动的地方,并在正文中标记

GDPR 与 个人信息保护法 对比

  • 目录

    • GDPR 个人信息保护法
      一般规定 总则
      原则 一般规定
      数据主体的权利 敏感个人信息的处理规则
      控制者和处理者 国家机关处理个人信息
      个人数据转移 个人信息跨境
      独立监督机构 个人信息处理活动的权利
      合作和一致性 个人信息处理者的义务
      责任和处罚 个人信息保护职责的部分
      有关特定加工情况的规定 法律责任
      委派行为和执法行为 附则
      最后条款
  • 个人数据定义相似,已识别或可识别的自然人有关的各种信息。其中草案定义不包括匿名化的信息。
  • “处理”的定义,GDPR 定义为对个人数据或个人数据集执行的任何操作或一组操作。草案没有明确定义只是列举了几个操作。
  • 敏感个人数据定义有所不同
    • GDPR 将敏感个人数据定义为 “特殊类别的个人数据”。种族或民族出身、政治观点、宗教或哲学信仰(或信仰缺失)、工会会员资格、健康,性生活、性取向、生物特征。
    • 一旦泄露或者非法使用,可能导致个人受到歧视或者人身财产安全受到严重危害的个人信息,包括种族、民族、宗教信仰、个人生物特征、医疗健康、金融账户、个人行踪
  • 数据保护原则
    • GDPR:合法公正透明、目的限制、数据最小化、准确性、存储/保留限制、完整性和保密性
    • 草案:合法公正透明、目的限制、数据最小化、准确性、完整性和保密性
  • 个人主体权利来说,GDPR覆盖面大于草案
    • GDPR:访问权、纠正权、删除权(被遗忘的权利)、限制处理权、被通知权、携带权、数据可携带权、反对权
    • 草案:访问权、纠正权、删除权、被通知权
  • 自动化决策
  • 整体来说,草案在严谨性以及覆盖面不及 GDPR

个人信息保护法自动化分析小demo

  • 隐私策略的完整性
  • 数据收集的一致性
  • 创新点:删除权

Advances and Open Problems in Federated Learning

image.png

image.png

Achieving Security and Privacy in Federated Learning Systems: Survey, Research Challenges and Future Directions

3.1 Byzantine attacks
  • 拜占庭一般问题,指的是分布式系统达成共识中的问题,不一定是恶意的
  • 更新聚合中,加权和平均很容易受到拜占庭攻击
3.2 Model poisoning attacks
  • 与拜占庭相反,攻击者不阻止模型收敛,对手使用的任何攻击策略都必须确保全局模型收敛到在测试集上具有良好性能的点。
  • 防御机制
    • Detection of malicious clients via model metrics,即根据比较准确率等一系列指标判断,是否让节点参与训练,此时服务器要能够接触数据集
    • Detecition of malicious clients via update statistics,即根据更新指标判断,超出特定范围的距离的更新将被视为异常更新
    • Krum aggregation rule,该方法答题思路就是选取方向大致相同的节点进行更新
    • Coordinate-wise median,中位数更新,中位数是比均值更稳健的统计量(即,它受异常值的影响较小),因此获得的全局模型受潜在恶意对等点的影响较小。
    • Coordinate-wise trimmed mean,对于均值进行修剪使用

image.png

4.Privacy attacks and defenses
  • Honest-but-curious FL server.认真完成聚合,但是会推断相关信息
  • Malicious FL server.不一定完成聚合工作,还会实行攻击
  • Honest-but-curious client.可以观察全局参数,去推断别的节点隐私信息
  • Malicious client.实行攻击的节点
  • 攻击方式

    • inference attack,推断攻击的范围还是非常广的,方法也有很多
    • Client-side GAN-based attacks,记录级的 DP 无法防御,生成同样分布的样本。局限性:
      • 分布式架构的改变来引入对抗性影响
      • 多次迭代后,攻击效果可能减弱
      • 攻击只能模仿用于训练的输入数据,而不是来自受害者的确切样本
    • FL server-side GAN-based attacks,不影响学习过程,影响协作学习过程和不修改共享模型的情况下提高了生成样本的质量,从而实现了隐形攻击。FL 服务器能够区分客户端的身份这一事实能够实现客户端级别的私有数据检索。
  • 抵抗方式

    • 安全多方计算(SMC):无损、通信成本大、由于不暴露个体参数梯度信息以至于一些类似于krum就无法实施。安全多方计算阻止服务端了解聚合过程中的信息,但是投毒攻击与拜占庭攻击都需要通过服务端分析各个节点的信息,导致之间相互冲突
    • 差分隐私(DP):有损、使用比较多

    image.png

image.png

DBA: D ISTRIBUTED BACKDOOR ATTACKS AGAINST FEDERATED L EARNING

提出了一种分布式的后门攻击,利用联邦学习的分布式特性。我们在FL 上提出了一种新颖的分布式后门攻击策略DBA,并表明DBA 比集中式后门攻击更持久和有效。基于广泛的实验,我们报告了一个突出的现象,即尽管每个敌手仅通过 DBA 植入了局部触发模式,但与集中式攻击相比,他们组装的模式(即全局触发)在全局模型上获得了显着更好的攻击性能。结果在不同的数据集和不同的攻击场景下是一致的,例如一次性(单次)和连续(多次)中毒设置。据我们所知,本文是研究分布式后门攻击的第一部作品。

  • Attacker ability:基于 Kerckhoffs 的理论 (Shannon, 1949),我们考虑这里的强大攻击者,他们完全控制了他们的本地训练过程,例如后门数据注入和更新本地训练超参数 。 这种情况非常实用,因为每个本地数据集通常由本地一方拥有。 然而,攻击者没有能力影响中央服务器的特权,例如改变聚合规则,也不能篡改其他方的训练过程和模型更新。
  • Objective of backdoor attack:后门攻击旨在误导训练有素的模型在嵌入了攻击者选择的模式(即触发器)的任何输入数据上预测目标标签 τ。 与拜占庭式攻击(Blanchard et al., 2017)不同,后门攻击的目的是操纵局部模型并同时拟合主任务和后门任务,从而使全局模型在 未篡改的数据样本,同时对后门数据样本实现高攻击成功率。

image.png

Factors in distributed backdoor attack
  • Trigger size、Trigger gap(距离)、Trigger location、Scale(类似学习率)、Poison ratio(中毒样本比例)、Poison interval(两次中毒之间的间隔)、Data distribution
Distributed backdoor attack v.s. centralized backdoor attack
  • 分为两种攻击场景,A-M 和 A-S 即多轮攻击与单轮攻击,Attack A-M 研究成功注入后门的难易程度,而 Attack A-S 研究后门效应减弱的速度
The Robustness of distributed attack

Backdoor Attacks and Countermeasures on Deep Learning: A Comprehensive Review

Abstract
  • 强调了后门攻击的新颖性,提出了本综述的意义
    • Firstly,针对攻击者能力没有系统分类
    • Secondly,针对防御方法缺少系统分析与比较
  • 攻击分成 6 类, code poisoning、outsourcing、pertained、data collection、collaborative learning、post-deployment
  • 防御分成 4 类,blind backdoor removal, offline backdoor inspection, online backdoor inspection, and post backdoor removal
  • 后门攻击的另一面:保护深度学习模型的知识产权,充当蜜罐以捕获对抗性示例攻击,以及验证数据贡献者请求的数据删除
A TAXONOMY OF ADVERSARIAL ATTACKS ON DEEP LEARNING
  • DL 容易遭受对抗性攻击,因为黑盒、模型的复杂性、决策的缺乏可解释性
  • 后门攻击是针对深度学习的一种对抗性攻击。 它区别于对抗样本、通用对抗补丁(通用对抗样本/扰动 和数据中毒。 对抗性示例和通用对抗性补丁是规避攻击,仅影响模型部署后的推理阶段。 数据中毒是在数据收集或准备阶段进行的。 然而,后门攻击可以在 ML 管道的每个阶段进行,除了模型测试阶段以保持沉默。

image.png

  • 后门攻击相较于对抗性样本更加灵活,可以布局于不同的阶段
  • UAP 是更加复杂多样的对抗样本,可以视为“幽灵”后门,幽灵的解释是它是深度学习的内在属性,但依然有区别
    • trigger 是任意的,而精心设计的 UAP 不是任意的。因此,触发器处于攻击者的完全控制之下,而 UAP 则取决于模型
    • 通过后门触发器的攻击成功率通常远高于UAP,尤其是在攻击者更喜欢有针对性的攻击时
  • 数据中毒攻击,降低模型准确性,且无目标,但后门攻击保留了其主要任务的良性样本的推理准确性,并且只有在存在秘密触发器的情况下才会偷偷地进行不当行为,后门攻击通常作为有针对性的攻击来执行——触发器输入被错误地分类为攻击者的目标类别
  • 后门模型学习攻击者选择的子任务和(良性)主要任务的一种方式。 一方面,对于不包含触发器的输入,后门模型通常表现为其干净的对应模型,因此无法仅通过使用测试样本检查测试准确性来区分后门模型和干净模型。 这与上面的中毒攻击不同,它恶化了主要任务的整体准确性,因此引人注目(和可疑)。 另一方面,一旦输入中出现秘密触发器,后门模型就会被误导以执行攻击者的子任务,例如,即使与输入的原始内容无关。
Background

A. Attack Surface

  • code poisoning:使用第三方库从而导致的代码层面攻击
  • outsourcing(外包):恶意 MLaaS 提供商控制训练阶段并在训练过程中对 ML 模型进行后门处理。
  • pertrained:当重复使用预训练模型或“教师”模型时,会引入此攻击面
  • data collection:数据收集通常容易出错并且容易受到不可信来源的影响
  • collaborative learning:作学习容易受到各种攻击 ,包括后门攻击。当极少数参与者受到攻击者的危害或控制时,联合学习的模型很容易被后门。如果使用参数加密技术是无法检查数据或者模型的
  • post-deployment:ML 模型已经部署,特别是在推理阶段,考虑一个典型的攻击场景,其中攻击者和用户是共享同一服务器的两个进程。 用户启动 ML 模型并将 ML 权重加载到内存中。 攻击者通过触发 rowhammer 错误 [80] 间接翻转权重的位

B. Backdoor Variants

  • Class-specific and class-agnostic:后门攻击一般是有目标的🤔,后门攻击可以分为类不可知(当触发效果独立于源类时)和特定于类的攻击(当触发效果依赖于源类时)。对于前者,后门模型可以将来自任何带有触发器标记的类的输入错误地分类为目标类。也就是说,触发器的存在主要决定了攻击。至于后者,后门模型可能会将来自带有触发器标记的特定类的输入错误分类为目标类。也就是说,触发器的存在以及特定的类决定了攻击。
  • Multiple tirggers to same label:多个触发器对应一个标签,多个触发器中任何一个触发器的存在都可以将后门模型劫持到相同的目标标签
  • Multiple Triggers to Multiple Labels:在这种情况下,后门模型可以被多个触发器劫持;但是,每个触发器针对不同的标签

C. Backdoor Preliminary

  • Clean Data Accuracy(CDA):不含触发器的干净测试样本,这些样本被正确预测到它们的真实类别的比例
  • Attack Success Rate(ASR):包含触发器的干净测试样本,这些样本被预测到攻击目标标签的比例
Backdoor Attacks

A. Outsourcing Attack

  • Invisible Trigger:我们注意到隐形导致触发器更像是添加的噪音。在很大程度上,对抗样本的防御可以应用于防御这种隐形后门攻击。有几种有效的对抗性示例对策,例如特征压缩 、输入转换 、降噪,可用于击败此类隐形触发攻击。
  • Backdoor Reinforcement Learning:后门顺序模型,一个区别是触发器的呈现方式和后门行为的激活方式。在以前的后门分类任务中,后门效应在触发器出现时立即激活,一旦没有触发器就消失。相比之下,杨等人。 证明动作可以与后门顺序模型中触发器的存在不同步——对抗性动作可以是几个步骤之后。此外,触发器只出现很短的一段时间——例如,在特定的步骤,但如果触发器消失,后门行为将继续。这两个属性可能会使触发器检测更加艰巨,因为即使确实注意到了对抗性动作,也无法将触发器与对抗性动作联系起来
  • 总结:外包增强了攻击者能力,他可以接触训练数据和模型,控制 trigger 和训练过程,值得一提的是,攻击者始终可以将防御目标的规避纳入损失函数,以自适应地绕过现有的对策

B. Pretrained Attack

用户的数据或/和计算资源很少,无法训练准确的模型。 因此,用户将使用公共或第三方预训练模型来提取一般特征。

  • Trojan Attack:严格来说,这种攻击并没有专门针对受害者训练学生模型的迁移学习——在某种程度上,属于外包攻击面。它利用已发布的模型来加速后门过程,并期望受害者直接使用重新分发的后门模型。尽管如此,结果表明,如果后来的受害者确实采用这种后门模型进行迁移学习,触发输入的模型准确性将在一定程度上降低——扰乱其正确行为。然而,由于攻击者不知道新任务的输出标签,触发器输入无法将新模型误导到目标标签。
  • Model Reuse Attack:攻击者确实需要知道下游任务和用户使用的小数据集。与任何带有触发器标记的输入都会被错误分类的传统后门攻击相比,模型重用攻击似乎仅适用于有限的对抗性输入
  • Programmable Backdoor
  • Latent backdoor:思路大概是攻击未来的标签,攻击感染预训练的教师模型。通常,潜在后门是注入教师模型的“不完整”后门——攻击者目标标签 尚不存在于教师模型中。但是,如果任何学生模型包含,则迁移学习过程会自动完成后门并使其处于活动状态。
  • Appending backdoor:总的来说,它通过将另一个单独的后门(小)神经网络与目标模型附加或合并来实现。 因此,它不会篡改目标模型的参数。 作为权衡,这项工作必须改变模型架构。 在实践中,架构变化并不隐蔽。 因此,只需检查模型架构规范即可轻松检测到
  • GNN backdoor
  • 总结:然而,攻击者无法控制下游任务和用户采用的迁移学习策略。 ASR 通常不如外包后门攻击高。 至于潜在的后门 ,ASR 很容易被破坏。 值得一提的是,预训练后门攻击或多或少假设了下游任务的特定知识(可能是推测的)和下游任务的一小部分数据

C. Data collection attack

需要中毒数据更加隐蔽,特别是为了欺骗人类检查。 然而,攻击者无法控制和操纵训练过程或最终模型

  • Clean-Label Attack(怎么感觉和对抗样本有点像🤔):保留中毒数据的标签,看起来仍是一个良性样本。对于清洁标签攻击,我们注意到触发器是一组特定的(测试)图像样本,而不是通用的特定模式。换句话说,后门攻击仅适用于一个或一小组输入——注意预训练下的模型重用攻击实现了类似的后门效果。这种隐藏的后门攻击似乎更实用和更强大,因为可见的推理触发器仅在攻击出现时才会显示,但在数据中毒期间通过不可见的中毒触发器隐藏。这些清洁标签攻击假设受害者了解模型
  • Targeted class data poisoning:数据中毒引入的传统后门,它随机 i) 从不同的源类别中选取训练样本,ii) 标记触发器,以及 iii) 将它们的标签修改为目标类别。提出了基于 GAN 和对抗性扰动来注入后门。为了对 ASR 有效,攻击者需要对模型架构和后期训练过程有充分的了解
  • Image-Scaling Attack:这滥用了人类(篡改的“羊”形象)和机器(“狼”形象)之间对同一形象的不一致理解。因此,可以有效且隐蔽地利用缩放伪装在黑盒设置下执行后门攻击;一般来说,触发图像可以伪装成目标类别的图像,通过执行图像缩放攻击来毒化训练数据,从而对训练模型进行后门处理。在推理阶段,触发器现在可以轻松激活后门模型,而无需使用缩放攻击。
  • 总结:对于中毒的数据,由于其内容始终与标签一致,因此在进行人工或目视检查时很难区分。 因此,不仅端到端训练的模型而且迁移学习都可能受到感染。 特征冲突是制作标签一致的有毒输入以注入后门的常用方法。 但是,在某些情况下,需要了解受感染模型架构的一些知识才能确定适当的潜在表示

D. Collaborative learning attack

  • 结果表明,即使仅在一轮(单次攻击)中选择单个客户端为联合模型更新做出贡献,联合模型在插入后门后立即具有 100% 的 ASR。随着联合模型继续学习,ASR 确实会减少。通过控制不超过 1% 的客户端,联合模型与干净模型的准确度相当,现在无法防止后门被遗忘。由于原则上不允许访问数据,因此要击败联邦学习的后门攻击非常具有挑战性。拜占庭弹性聚合策略对此类攻击无效。更糟糕的是,当采用安全聚合来进一步增强隐私时,防御会变得更加困难
  • 总结:一方面,协作学习越来越被使用。 另一方面,由于很难控制恶意参与者提交的数据和本地模型,因此它天生容易受到后门攻击。

E. Post-Deployment Attack

F. Code poisoning

image.png

Backdoor countermeasures

A. Blind Backdoor Removal

  • 不区分后门模型与干净模型,或从干净输入触发输入。 主要目的是消除或抑制后门效应,同时保持干净输入的 CDA,特别是考虑到它最终是一个干净的模型。
  • Fine-Pruning:修剪 DNN 模型中精心选择的对主要分类任务贡献最小的神经元来移除潜在的后门 。 更准确地说,神经元根据它们在干净输入(例如,保持验证样本)上的激活进行排序,并以最少激活的顺序进行修剪。 一种普遍的假设是,由清洁和触发输入激活的神经元是不同的或可分离的。 修剪后,微调用于恢复模型性能。
  • Februus:利用视觉解释工具来识别潜在的触发区域。 一旦确定该区域,Februus 将手术移除恶意区域并将其替换为中性灰色。 这种手术去除步骤已经消除了触发效应,并可能降低深度神经网络的分类。 提出了一个额外的步骤,即图像恢复,使用基于 GAN 的图像修复方法将受损区域恢复到被污染之前的原始可能性。 该方法对多个后门变体具有鲁棒性,尤其是针对特定类别的后门变体。 然而,由于该方法涉及删除和恢复图像,它对大尺寸敏感
  • Suppression:给定每个输入,制作了许多副本:每个副本都通过添加一些噪声而受到干扰——噪声水平是凭经验确定的。所有被扰动的副本都被输入到 DNN 模型中,无论是后门的还是干净的,以收集预测。
  • ConFoc:基本原理是图像由内容和样式信息组成[138]。前者是指物体的形状或语义信息,后者是指图像的颜色或纹理信息。据推测,在进行分类时,仅关注内容类似于人类的推理。因此,ConFoc 重新训练模型进行分类,主要依靠内容信息。 ConFoc 的一个主要限制是它假设触发器不与输入图像中感兴趣的对象(具有内容信息)重叠,这在设置触发器与对象重叠时不适用
  • RAB:尽管可证明的鲁棒性是可取的,但 RAB 有严格的条件,例如触发器扰动界限必须很小,这意味着只要触发器的扰动超过界限,它就可以在实践中轻松绕过。此外,还有许多“平滑”模型需要训练,这大大增加了计算开销。此外,为了保证可证明的鲁棒性,RAB 需要了解中毒数据的比例和扰动边界类型,例如 l2 范数,这往往是不切实际的。

B. Offline Inspection

​ 1)Data Inspection

  • Spectral Signature:当干净输入的潜在表示与触发输入的潜在表示完全不同时,这种防御就会成功。因此,一个关键的步骤是确定获得适当潜在表征的方法,以暴露触发器的踪迹 。但是,它指出异常值比率固定为接近目标类中损坏样本的比率
  • Gradient Clustering:假设然后证明触发图像样本可能导致输入层在触发位置的梯度绝对值相对较大。 基于此,可以使用聚类算法将触发样本与干净样本分开。 由于作者可以检测受感染的目标和源类别,因此可以通过将触发样本重新标记为正确的标签来重新训练受感染的模型,以消除后门效应,而不是使用已删除损坏数据的净化数据从头开始训练模型。
  • Activation Clustering:最后一个隐藏层的激活反映了神经网络用于达到模型决策的高级特征。给定收集到的数据和用数据训练的模型,将每个样本输入模型,并收集相应的激活。通过在降维后应用 k = 2 的 k 均值聚类,将属于同一标签的输入的激活分离和聚类。由于 2-means 聚类总是将激活分成两个簇,无论是否存在中毒数据,都会使用一些度量来判断。例如,高剪影分数意味着该类已被感染或中毒。一旦识别出中毒数据,就可以将其删除,并训练一个干净的模型。
  • Deep KNN:设计一个深度 k-NN检测清洁标签中毒样本的方法,可以有效对抗特征碰撞和凸多面体清洁标签攻击
  • SCAn:攻击者目标类(受感染类)中图像的潜在表示是来自触发输入和干净输入的两组的混合。每个都被分解为不同的身份和通用变化组件。回想一下,触发图像来自不同的类别/身份,但(错误)标记到目标标签。以便可以识别受感染的类。 SCAn 还有一个额外的主要优势,它也适用于特定于类的触发器。作为一个轻微的矛盾,它最终假设一小组保持干净的验证集,必须不包含触发器,从这个数据收集表面下的内部收集。SCAn 对多目标触发攻击的效果较差。
  • DP:模型已经极大地抑制了后门效应——ASR 非常低。此外,模型在预测非典型中毒示例时的信心也会降低。因此,通过将损失作为度量来衡量,可以区分中毒输入,因为它具有更高的损失分数。

​ 2)Model Inspection

  • Trigger Reverse Engineer:NeuralCleanse 遍历模型的所有标签,并确定是否有任何标签需要更小的修改来实现错误分类。这种方法的一个优点是可以在后门模型检测过程中对触发器进行逆向工程和识别。一旦触发被识别,后门移除可以通过重新训练来消除触发效应。但 NeuralCleanse 仍然有一些限制。首先,它可能会产生与标签数量成正比的高计算成本。对于特定的 DNN 模型,即使考虑了优化,检测过程的计算成本也可能需要几天时间。当任务的类数很大时尤其如此。其次,与大多数后门对策一样,据报道,随着触发器大小的增加,该方法的效果较差。第三,它需要训练参考模型来确定一个(全局)阈值来区分干净模型和后门模型,这在外包下无意中似乎不适用。因为这违反了外包的动机,因为用户的计算资源或/和 ML 专业知识有限。

  • DeepInspect:DeepInspect 的关键思想是使用条件生成模型来学习潜在触发器的概率分布。 该生成模型将用于生成反向触发器,其扰动水平将被统计评估以构建后门异常检测。

  • AEGIS:将输入样本与其潜在表示进行聚类并不是什么新鲜事,它已被用于触发数据检查 。不同之处在于之前的工作需要访问中毒的触发数据,而 AEGIS 则不需要。 AEGIS 的局限性仅适用于稳健模型,不适用于标准模型。人们还承认,击败特定触发器,例如混合触发器,诱导后门似乎是 AEGIS 的一个挑战

  • Meta classify:它由防御者训练许多干净的和后门影子模型作为元分类器(另一个神经网络)的训练样本,以预测新模型是否干净。当数据集发生变化时,必须执行这种计算成本高的阴影模型训练。

  • 总结:由于防守方的能力较差,尤其是由于无法访问中毒样本,因此离线模型检查通常需要高计算开销和 ML 专业知识也就不足为奇了。 在这种情况下,外包和预训练的防御者可能无法采取这些对策。

C. Online Inspection

​ 1)Data Inspection

  • STRIP:一方面,对于干净的输入,预测 z 应该与真实情况大不相同,因为对其施加了强而有意的扰动。因此,具有不同扰动的干净输入的副本表现出很强的随机性——通过熵度量量化。另一方面,对于触发器输入,由于触发器的强劫持效应,即使在扰动下,预测 z通常也应该与攻击者的目标 保持恒定。因此,具有变化扰动的触发器输入的副本表现出弱随机性。给定一个预设的熵阈值——可以单独使用干净的输入来确定,触发输入(高熵)可以很容易地与干净的输入(低熵)区分开来。STRIP 的一个限制是它主要是为类不可知的触发器而设计的,而这些触发器对于类特定的触发器是无效的。
  • Epistemic classifier:它通常基于这样的假设,即具有触发器的输入可能从输入层中的源类开始接近干净的训练实例,但其在神经网络上的轨迹将缓慢或突然接近攻击者选择的目标类。

​ 2)Model Inspection

  • ABS:使用 ABS 检查单个神经元激活差异以检测后门异常,这可以潜在地击败对序列模型 超出分类任务的后门攻击。 ABS 的优势在于 i)它与触发器大小无关,并且 ii)每个标签只需要一个干净的训练输入来检测后门。 iii) 它还可以检测对特征空间而不是像素空间的后门攻击。然而,该方法似乎仅在某些关键假设下有效,例如,目标标签输出激活只需要由一个神经元激活,而不是由一组神经元的相互作用激活。因此,它可以通过使用中的扩展触发器轻松绕过。此外,范围也仅限于每个标签一个触发器的攻击。如果多个触发器旨在攻击同一个标签,那么 ABS 将无法实现。
  • NIC:这种方法通常可以被视为检查跨 DNN 层的激活分布和流(受编程中使用的控制流的启发),以确定是否由于对抗样本而违反了流。
  • 总结:在线检查的一个优点是一些对策对触发大小不敏感。 此外,在线检查对策在某种程度上具有对不同领域的良好泛化。 一个限制是在线检查通常会导致延迟。

D. Post Backdoor Removal

一旦通过模型检查或数据检查检测到后门,就可以考虑删除后门。一种方法是删除损坏的输入并再次训练模型,这似乎仅在数据收集下才实用,因为不允许用户在其他攻击面下访问触发器输入。另一种方法是通过使用包含触发器但正确标记的损坏数据重新训练或微调后门模型,从模型中去除后门行为,重新学习更正的决策边界。

Flip Slide of Backdoor Attack
  • watermarking:目前有一些作品将后门作为水印来保护受过训练的 DNN 模型的知识产权(IP)。论点是插入的后门可用于声明模型提供者的所有权,因为应该只有提供者知道这样的后门。相比之下,后门 DNN 模型在正常输入上没有(或察觉不到)功能性能下降。尽管有多种对抗后门插入的检测、恢复和移除对策,但我们推测使用后门技术的水印通常是稳健的。理由是开发一对多的后门对策非常具有挑战性。但是,我们建议始终考虑谨慎的后门插入策略来为模型添加水印,尤其是考虑到自适应后门插入。利用后门作为信息隐藏技术或速记技术是可行的。
  • against model extraction:当攻击者查询旨在窃取主任务功能的模型时,作为不同子任务的水印可能不会传播到被盗副本。
  • against adversarial examples:类似于蜜罐🍯
  • data deletion verification:验证用户删除,ASR 可以检查后门跟踪,如果数据删除得到遵守,后门跟踪应该非常低。因为现在应该在没有用户数据的情况下训练模型,也没有数据中包含的后门痕迹。
Discussion and prospect
  • 自适应攻击

Backdoor Learning: A Survey

Introduction
  • 这篇文章中将防御方法分类成基于经验以及经过认证的两种,个人觉得没有上一篇根据防御者能力分类的效果好。
  • 它主要分析三个场景
    • 第三方数据源
    • 第三方平台
    • 第三方模型
Poisoning-based backdoor attacks

image.png

image.png

NEURAL ATTENTION DISTILLATION: ERASING BACK - DOOR TRIGGERS FROM DEEP NEURAL NETWORKS

Abstract
  • NAD 利用教师网络指导后门学生网络在一个小的干净数据子集上的微调,使学生网络的中间层注意力与教师网络的中间层注意力保持一致。教师网络可以通过对同一个干净子集的独立微调过程获得。我们凭经验表明,针对 6 种最先进的后门攻击,NAD 可以仅使用 5% 的干净训练数据有效地消除后门触发器,而不会导致干净示例的明显性能下降。
Introduction
  • attention maps 可以作为一种直观的方式来评估后门防御机制的性能,因为它们能够突出显示网络拓扑中的后门区域
  • knowledge distillation 知识较多的网络称为教师网络,较小的网络称为学生网络。 特征图和注意力机制已被证明在 KD 中非常有用,可以监督学生网络的训练。
Proposed approach
  • NAD 与传统微调方法之间的差异。 我们没有将微调网络直接用作我们的最终模型,而是将其用作教师网络,并通过将其与原始后门网络(即学生网络)结合使用注意力蒸馏过程。