涉及毒害机器学习模型的训练数据的攻击的风险

The risks of attacks that involve poisoning training data for machine learning models 研究人员检查的攻击将成员和非成员的损失分布分开，使它们更容易区分。对于五个随机CIFAR-10示例，此图绘制了一个示例的(logit-scaled)损失分布，其中一个示例是成员(红色)或不是成员(蓝色)。水平轴根据对手毒害示例的次数而变化。鸣谢:Tramèr等人越来越多的研究表明，机器学习算法可以通过它们的模型参数和预测，泄露用于训练它们的数据中包含的大量信息。因此，对算法具有一般访问权限的恶意用户在许多情况下可以重建和推断训练数据集中包含的敏感信息，范围从简单的人口统计数据到银行账号。谷歌、新加坡国立大学、耶鲁-新加坡国立大学学院和俄勒冈州立大学的研究人员最近进行了一项研究，评估这种类型的攻击的风险，这种攻击本质上需要“毒害”机器学习模型，以重建隐藏在其参数或预测中的敏感信息。他们的论文预先发表在arXiv上，强调了这些攻击的惊人性质以及它们绕过现有加密隐私工具的能力。

“对手方法的基础是一种推理算法，称为成员推理攻击，它可以确定任何任意记录成为训练集一部分的可能性，”进行这项研究的研究人员之一Reza Shokri告诉TechXplore。“针对ML的推理攻击是一种严重的数据隐私威胁，因为对手是机器学习系统的合法‘用户’，不需要闯入任何系统来访问敏感信息。”

最近这篇论文的合著者以及世界各地的其他研究团队之前的研究报告了在不同设置中使用的机器学习算法的隐私漏洞，包括ML即服务平台、联邦学习工具和大型语言模型。在这些先前论文中识别的大多数攻击中，不包括那些涉及联合学习设置的攻击，对手或恶意用户可以在仅仅“观察”学习过程的结果(即，由模型预测的标签)的同时执行推理攻击，然而他/她不能影响训练过程。

在他们最近的论文中，Shokri和他的同事特别关注在安全的多方设置中实现机器学习算法。在这些情况下，模型是根据不同个人、开发人员或其他方独立提供的数据组合来训练的。

“根据之前在该领域的工作，我们知道最终的模型会泄露一些有关各方贡献的训练数据的信息，”Shokri解释道。“然而，我们在本文中展示的是，恶意方可以通过贡献敌对数据和毒害训练数据池来显著‘增加’关于其他方数据的信息泄漏。"

本质上，Shokri和他的同事表明，通过“毒害”训练数据，恶意用户可以促使训练算法“记住”其他方提供的数据。这反过来允许他/她使用一系列推理攻击来重建受害者的数据。推理攻击是一种数据挖掘技术，它允许用户非法获取关于数据库中的个人或公司的知识。

在他们的论文中，研究人员专门评估了三种不同类型的推理攻击的有效性和威胁级别，并结合了训练数据的“中毒”。他们首先研究了成员推理攻击，这种攻击允许攻击者确定特定的数据记录是否是训练数据集的一部分。

Shokri说:“这些攻击之所以重要，是因为它们允许我们量化模型在其训练集中泄露了多少关于个体数据记录的信息。”"成员推理攻击被用于在机器学习中审计隐私(例如，像ML隐私测量仪这样的工具)."

除了成员推理攻击，Shokri和他的同事还评估了重构攻击和属性推理攻击的有效性。这两种攻击子类型都允许高级攻击者部分重建训练数据。

“例如，这些攻击可以让用户生成与用于训练语言模型的句子明显重叠的句子，或者完成一个句子，例如以Aleph One的信用卡号码xxxxx开始，或者推断部分已知记录的缺失属性(例如，推断Aleph One的婚姻状况)，”Shokri说。这些攻击通常基于成员推理攻击(即，成员推理攻击被用作运行重建攻击的跳板)

Shokri和他的同事发现，他们研究的所有推理攻击在他们关注的场景中都取得了惊人的成功，在这种场景中，用户可以毒化不同用户汇编的公共训练数据池。这表明，现有的加密隐私工具可能不足以保证为训练机器学习算法提供数据的用户的隐私。

“我们发现，这是一个重要的问题，即当对手被允许毒害训练集时，平均而言没有通过常规推理攻击(没有中毒)泄露的数据点变得更加脆弱，”Shokri补充道。“我们的结果对机器学习的多方计算协议中的加密隐私保证的相关性提出了严重的质疑。我们现在正致力于设计强大的推理攻击，以便能够为机器学习提供准确的隐私审计。”

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/17622.html