idea from How To Backdoor Federated Learning

三月 26, 2023, 2:22 下午

针对于How To Backdoor Federated Learning，给出的防御方案。

首先对How To Backdoor Federated Learning的方案进行简述：

敌方权限：

联合学习使攻击者能够完全控制一个或多个参与者：
（1）攻击者控制任何被攻破的参与者的本地训练数据；（2）它控制本地训练过程和超参数，例如轮次和学习率；（3）它可以在提交结果模型进行聚合之前修改其权重（4）它可以自适应地在每一轮改变本地训练。

攻击者不控制用于将参与者的更新组合到联合模型中的聚合算法，也不控制良性参与者训练的任何方面。我们假设他们通过将联合学习规定的训练算法正确应用于本地数据来创建本地模型。

攻击方案：

avatar

这个算法，首先需要$G^{t},\alpha ,\mathcal{L}{class} \mathcal{L}{ano}$来构造攻击者的模型$X$和损失函数$l$，使用后门数据对$X$进行训练直到精度达到要求,$X$需要对正常数据保证一定的精度，同时保留对投毒数据的准确性。在某一轮次代替$L^{t+1}{t}$上传。使用的更新函数从：
$$G^{t+1}=G^{t}+\frac{η}{n}\sum^{m}{i=1}(L^{t+1}{i}-G^{t})$$
变为：
$$G^{t+1}=G^{t}+γ\cdot \sum^{m}{i=1}(X-G^{t})$$

以上过程，每次服务器选中部分客户发送$G^{t}$, 而用户发送$L^{t+1}{i}-G^{t}$，进行平均，而攻击者伪造$X$，并使用缩放因子$γ=\frac{n}{η}$，保证$X$的存在不被稀释。有通过我们通过添加异常检测项$\mathcal{L}{ano}$来修改目标（损失）函数：
$$ \mathcal{L}{model}-=\alpha \cdot \mathcal{L}{class} + (1-\alpha) \mathcal{L}_{ano}$$
保证函数在正常数据的准确度，不被异常检测出。

解读：
首先，敌手的权限很高，可以直接当作恶意的参与者，无法通过本地的检测手段进行检测，需要参与者自行判断的方案也不可行。其次，通过$\mathcal{L}_{ano}$，正常数据难以测出模型的异常，同时由于联邦学习的特征，无法进行这种检测。服务器手上没有数据。

我的方案：

每轮服务器将$G^{t}$发给参与者时，参与者对新的$G^{t}$用自己的数据进行预测，对该轮训练成果进行投票（这个发送的时机可以是训练之后发给参与训练的客户端，也可以重新选择客户端，可以对比效果）。如果担心投票结果泄露信息，导致服务器有意改变每轮选择的用户的频率，可以使用匿名投票方案。还可以根据投票结果对用户的信任度进行赋值修改，维护模型。

思路相同的论问对于参与者判定的设定如下，，使用参数q作为阈值由总人数与支持人数进行计算。而用户是否支持模型使用“一个有毒的模型可以显著地改变错误率的变化”进行判断。通过比较更新模型的错误率与之前模型的错误率，在一个固定的数据集上，每个标签单独的错误率，当后续轮的错误率与最近观察到的公认模型的错误率显著不同时，作为模型错误的特征

场景：
所有参与者和服务器都配合协议的流程，攻击者也不会违反，因为希望被攻击的模型被使用，单纯的破坏是没有意义的。

backdoor的方案是，控制用户，利用用户的数据，参数构造模型，模拟用户数量。
构建模型的思路：我们提出了一种新型的后门，即语义后门，与像素后门不同，它使模型在未修改的数字输入上产生攻击者选择的输出。例如，后门图像分类模型将攻击者选择的标签分配给具有某些特征的所有图像，例如，所有紫色汽车或所有带有赛车条纹的汽车都被错误地分类为鸟（或攻击者选择的任何其他标签）。后门单词预测模型建议攻击者选择一个单词来完成某些句子。

在通过估计学习率和用户人数模拟缩放因子，保证毒模型的存在感。

相似文章，根据其误差变化点与前一个更新之间的相对距离，将每个新更新识别为“可疑的”。为此，我们依赖于局部离群因子(LOF)[6]，这是一种检测数据集中离群值的方法，通过检查一个点与其邻居的接近度与邻居自身的接近度的比较。发送给用户多个以往的模型和本次模型，计算离群点来判断是否有问题。

我的改进，1是加入一个信用值，通过每次判断是否投毒的结论，判断用户是否可信，并以此改变他的权重。对于判断是否投毒，2 相似文章采用的是离群局部因子，这就隐含了用户用于检测的的数据里面要包含trigger，但是这在数据集里是很难实现的比如60000的数据集里只有30张绿色的车，但如果投毒成功了话模型的预测值偏移就是必然的，可以类似蜂窝一样的构造典型数据（难以实现，在联邦学习中数据是隐私的），对两个模型类似计算积分的操作。

其他人的解决方案：

通过联邦修剪方法，我们去除了冗余神经元和“后门神经元”，它们在识别后门模式时会触发不当行为，而在输入数据干净时保持沉默。第二个可选的微调过程旨在恢复修剪对良性数据集测试准确性的损害。在最后一步中，我们通过限制输入的极值和神经网络神经元的权重来消除后门攻击。
为了解决这个问题，我们在本文中提出了一种基于差分隐私的防御方法，称为Clip Norm Decay（CND），以在防御DP后门攻击时保持效用。CND通过在整个训练过程中降低模型更新的削波阈值来减少注入的噪声。特别地，我们的算法通过根据当前模型更新自适应地设置适当的阈值来限制恶意更新的范数。
我们强调，对棘手的隐蔽性的关键救赎（如果不是唯一的话）是反应追踪和后验缓解。然后，通过探索模型在攻击捕获样本上的时间相关性和推理相关性，提出了一个三步补救框架。特别是，我们使用移位集合检测和同现分析来进行对手识别，并在理论误差保证下通过恶意成分去除来修复模型。
基于过滤的防御许多针对有针对性的中毒攻击提出的防御侧重于过滤掉恶意模型。FoolsGold[12]调查了标签翻转攻击，并假设恶意客户端比良性客户端更相似，从而根据输出层的余弦相似性筛选出相似的客户端。然而，FoolsGold被证明对DBA[11]和集中式后门攻击都无效，在集中式后门攻击中，良性客户端彼此相似，例如NIDS数据集中的情况[16]。
FLAME[22]和DeepSight[16]也基于它们的余弦相似性来过滤模型。然而，他们会检查恶意客户端不完全相同的情况。在DeepSight中，目标是将在类似数据集上使用HDBSCAN聚类训练的模型聚类在一起。在FLAME中，余弦相似度显著偏离的客户端被认为包含有针对性的中毒攻击，因此被过滤掉。FLAME也使用HDBSCAN集群，但它将最小集群大小设置为N/2+1，即略高于一半的客户端。这导致了一个良性客户端集群，而其他客户端则被标记为异常值并被过滤掉。我们的第一个滤波度量，输出层的余弦相似性，将遵循此设计。
DeepSight还基于分割差（DDifs）对模型进行过滤，该模型根据10000幅图像的随机矢量输入，根据预测输出对模型进行聚类[16]。然后将预测相似输出的模型聚集在一起。我们的第二个过滤度量也基于每个模型的预测输出进行聚类，尽管与DeepSight不同，我们基于这些预测的余弦相似性进行聚类，并将最小聚类大小设置为N/2+1。
其他几种防御措施旨在通过剪切来减少恶意模型的影响[10，24]。然而，他们很难找到一个合适的剪辑边界，该边界足够高，可以在不影响良性模型的情况下减少恶意模型的剪辑。其中一个原因是局部模型的L2范数在整个训练过程中通常会降低。FLAME[22]和DeepSight[16]通过改变每一轮的剪裁边界S来解决这个问题，将其设置为所有模型的L2范数更新的中值，包括后来被过滤掉的模型。如果任何模型的L2范数大于训练轮t的裁剪界St，则相应地按比例缩小。由于这种设计的稳健性，它是我们将遵循的剪裁方法。
聚合FedAvg是FL中使用的标准聚合方法，但它通常容易受到异常值的影响，因为它取所有模型的平均值。RFA[21]使用几何中值而不是平均值，从而减少了异常值的影响。在我们的工作中，我们将几何中值与FedAvg进行了比较。
我们设计了一种部署在中央服务器端的防御方法。该方法基于从所有参与者接收到的参数符号来自主调整学习率，以减少恶意更新的影响。
基于联盟博弈和Shapley值，我们在FL上提出了一个有效的实时后门检测系统。
针对现有的联邦学习后门攻击防御方法计算时间长，无法破坏触发器和后门之间的匹配关系的问题，提出了一种基于双重注意力机制的联邦学习前门攻击防御方法（FDDAM）。模型权重在训练过程中动态调整，不需要额外的模型，计算时间更短。首先，为了使模型忽略触发器，对图像语义进行增强，然后构建通道注意力图。其次，为了破坏触发器和后门之间的匹配关系，构建了特征图空间变换网络。最后，为了提高防御成功率，对通道注意力图和空间注意力图进行加权，构建双重注意力网络。
为了抵御对IIoT应用程序的攻击，我们提出了联邦后门过滤器防御，该防御可以识别后门输入，并通过模糊标签翻转策略将数据恢复到可用性。我们在服务器上使用可扩展的人工智能模型构建多个过滤器，并将其随机发送给客户端，防止高级攻击者逃避防御。
我们研究了基于FL的波束选择系统中的后门攻击，该系统基于利用用户位置信息的深度神经网络。具体来说，我们提出了一种可以在现实世界中配置的后门攻击方案。攻击者的扳机是放置在特定位置的障碍物。当模型遇到带有这些障碍物的输入时，后门将被触发，模型将输出攻击者指定的波束。
在本文中，我们提出了通过基于反馈的联合学习（BAFFLE）进行后门检测，这是一种保护FL免受后门攻击的新防御措施。BAFFLE背后的核心思想是利用多个客户的数据，不仅用于培训，还用于发现模型中毒。我们通过将反馈回路纳入FL过程，利用不同客户端的不同数据集的可用性，在决定给定的模型更新是否真实时，集成这些客户端的视图。
在这项工作中，我们提出了一种使用多个局部触发器的针对联合学习的有效协调后门攻击；全局触发器由各种单独的局部触发器组成。此外，与使用随机触发器相比，我们建议使用依赖于模型的触发器（即基于攻击者的本地模型生成的触发器）来进行后门攻击。
在本文中，我们提出了一种新的防御方案来抵御FL中的分布式后门攻击。特别是，我们首先确定范数裁剪方案失败的主要原因是它在训练过程中的固定阈值，它不能捕捉到全局模型收敛过程中良性局部更新的动态性质。受此启发，我们设计了一种新的防御机制来动态调整局部更新的范数裁剪阈值.
更具体地说，我们的框架由训练局部模型、检查客户端的权重、基于检查排除恶意客户端、聚合所选（良性）客户端的权重以形成全局模型，并将其发送给所有客户端组成。