物理科技生物学-PHYICA

共享数据时利用博弈论阻止多级隐私入侵

物理学 2023-01-02 15:51:07

作者:Phys Thamarasee Jeewandara

(同organic)有机 一种多阶段隐私攻击及其博弈论保护

(一)全系统视角下的多级重识别攻击及其防护

对手可通过三个数据库访问受试者的个人特定数据记录:目标基因组数据库、遗传谱系数据库和公共识别数据库

对手在第一阶段通过推断姓氏重新识别基因组记录,并在第二阶段将其与公共记录联系起来

数据主体只有在D中共享数据时,才会基于博弈模型选择共享策略

(二)以泛形式为代表的掩蔽游戏

在掩蔽游戏中,数据主体先移动,对手接着移动

每个终端节点都与两个玩家的收益相关联

Sj是一个0和1值的m维向量,代表数据主体的具体动作

更多的表示细节在正文中

选择加入游戏是掩蔽游戏的一种特殊变体,其中数据主体只有这两种策略

信用:科学进展,10

1126/sciadv

abe9986 生物医学数据在医学领域被广泛收集,尽管共享此类数据会引起对重新识别看似匿名的记录的隐私担忧

用于正式重新识别的风险评估框架可以为数据共享过程的决策提供信息,当前的方法侧重于数据接收者仅使用一种资源来识别目的的情况

然而,这会影响隐私,因为对手可以访问多种资源来增加他们成功的机会

在现在科学进展的一份新报告中,万智宇和一组美国电气工程、计算机工程和生物医学信息学的科学家

S

代表了一个使用两人Stackelberg完美信息游戏来评估风险的重新识别游戏

他们提出了一个基于隐私和效用权衡的最佳数据共享策略

该团队使用大规模基因组数据集和博弈论模型进行实验,以诱导对抗能力,从而以低重新识别风险有效共享数据

一种新的数据收集方法 研究人员通常在广泛的环境中大规模收集大多数生物医学数据,其中个人健康数据通常作为电子健康记录存储在临床上

生物医学研究人员现在支持在不同的参与者中收集数据的研究,最近的改进包括许多ve ntures,包括直接面向消费者的基因测试公司,这些公司从不同的消费者那里收集数据以建立存储库

人们认为,在数据收集的最初阶段之外共享这些数据对于最大化其社会价值至关重要

然而,围绕这种做法的隐私问题包括数据主体的可识别性,包括数据对应的个人

基因组数据在美国各种环境中共享,以清晰地说明数据重新识别的威胁和对可能性的担忧

将基因组数据与标识符联系起来会对数据主体的匿名性造成威胁

在这项工作中,万等人

引入了一种新方法,通过明确建模和量化多阶段攻击期间受试者的隐私权衡来评估和战略性地减轻风险

通过这种方式,团队弥合了更复杂的模型和明智的数据共享决策之间的差距

针对来自1000名受试者的数据的多级再识别攻击,在八种情况下保护的有效性措施

(一)数据主体平均收益的八个分布的小提琴图,其中每个分布对应于一个场景

小提琴图(使用Seaborn描述)结合了箱线图和核密度估计,用于显示数据主体在每个场景中的收益分布

高斯内核与默认参数设置一起使用

(二)数据主体的平均隐私度量和平均效用度量的散点图,其中每个标记对应于一个场景和一次运行(100次运行中)

信用:科学进展,10

1126/sciadv

abe9986 维护基因组数据的隐私 网络科学家已经开发了许多方法来防止从监管和技术角度重新识别生物医学数据

然而,大多数方法关注最坏的情况,这导致高估了隐私风险

为了避免这个问题,研究人员引入了基于博弈论模型的风险评估和缓解

万等

展示了博弈论模型如何向数据主体揭示最佳共享策略,在该模型中,研究小组使用真实数据或大规模模拟进行了针对多级攻击的防护实验

结果表明,博弈论模型能够有效地评估和缓解隐私风险

这里推荐的共享策略或模型可以最大限度地减少成功重新识别数据主体的机会,同时最大限度地利用数据来保持发布的数据集的有用性和数据共享过程的公平

随机掩蔽场景和三个掩蔽游戏场景中第一轮实验的前700个数据对象的最佳策略

(一)随机屏蔽场景

(二)掩蔽博弈

(三)无攻击掩蔽游戏

(四)一阶段掩蔽博弈

每个非白色块表示数据主体屏蔽了特定属性

每行代表一个属性,每列代表一个数据主题

数据主体(属性)的分布汇总在顶部(右侧)的直方图中,箱数等于数据主体(属性)的数量

数据主体分为两组:左侧不会受到攻击的主体和右侧会受到攻击的主体(红色阴影)

每个组中的列(或数据主题)按屏蔽属性的数量降序排序

行(或属性)按属性在数据集中的顺序排序

对于每个场景,平均收益、效用损失和隐私风险分别显示在左上角、左上角和右上角

对于每个数据主体,效用损失定义为1减去数据效用,隐私风险定义为1减去隐私

YOB,出生年份;DYS,脱氧核糖核酸Y染色体片段

信用:科学进展,10

1126/sciadv

abe9986 博弈论模型实验

万等

展示了博弈论模型如何通过利用真实数据集或大规模模拟进行多级攻击防护实验来揭示最优共享策略,其中博弈论模型可以有效地评估和减轻隐私风险

共享策略/模型最大限度地减少了成功重新识别数据主体的机会,同时最大限度地利用数据来保持发布的数据集的有用性和数据共享过程的公平

在实验过程中,科学家们发现了一种情况,即数据主体可以选择在公共存储库中共享多少基因组数据,如1000基因组计划或个人基因组计划

在这种情况下,受试者可能愿意分享整个序列,一个短串联重复序列的子集,或者根本不分享

这项工作的目标是评估主体(领导者)相对于数据共享的金钱利益和追随者(对手)重新识别的风险的最优共享决策

在这个模型中,受试者充当领导者,选择共享多少基因组数据,追随者/对手获得共享数据,然后决定是否执行攻击

当受试者决定并选择掩蔽策略时,对手会根据掩蔽策略观察数据,并有动机

数据主体的平均收益作为模型中参数和设置的函数的敏感性

(一)对基因组属性数量敏感性的线图

(二)灵敏度对缺失基因组数据比例的线图

(三)置信度阈值敏感度的线图

(四)遗传谱系数据集中对记录数量敏感性的线图

(五)对已识别数据集中记录数量敏感度的线图

(六)对重新识别损失敏感度的线图

(G)对共享所有数据的最大利益的敏感度的线图

(八)对攻击成本敏感度的线图

(一)盈利分布对战略采纳设置的敏感性的小提琴图

(J)小提琴情节对姓氏推断方法的敏感性

(八)小提琴图对属性权重分布的敏感性

每条线图(使用Seaborn描述)显示了数据主体在八种情况下的平均收益,误差线代表SDs

每个小提琴图(使用Seaborn描述)结合了箱线图和核密度估计,以显示数据主体在几个场景中的平均收益分布

高斯核与默认参数设置一起使用

TMRCA,到最近共同祖先的时间;KNN,k近邻

信用:科学进展,10

1126/sciadv

abe9986 展望:数据分析和匿名化 该团队随后模拟了保持20个属性(包括身份和姓氏)以及16个基因组特征的群体

模拟比较了对手声称在所有场景中重新识别所有记录的几种场景

其中,“无保护”方案相对于数据效用的变化最大

该团队使用一台带有六核、64位中央处理器的机器来计算每个场景中所有1000个数据主体的最终策略

作为模型参数函数的数据主体平均隐私敏感度

(一)基因组属性的数量

(二)缺失基因组数据的比例

(三)置信度得分的阈值

(四)遗传谱系数据集中的记录数量

(五)已识别数据集中的记录数量

(六)被重新认定的损失

共享所有数据的最大利益

(八)攻击成本

每条线图(使用Seaborn描述)显示了数据主体在八种情况下的平均收益,误差线代表SDs

信用:科学进展,10

1126/sciadv

abe9986 万等

还测试了模型对八个参数和三个实验设置的敏感性,并进行了cast研究,以展示模型在真实数据集上的应用

利用克雷格·文特的人口统计学属性,包括出生年份、居住状态和性别,该方法允许受试者在面对复杂的、最先进的再识别模型时做出知情的数据共享决定

这种灵活的方法有助于回答向开放数据存储库共享未识别数据的风险问题,并帮助个人识别要共享的数据部分

通过这种方式,万智宇和他的同事们讨论了博弈论模型,包括它的局限性,并指出如何扩展它来为未来的工作提供方向

例如,团队设想将解决方案作为服务集成到现有的匿名化软件中

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/wulixue/25452.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~