机器学习的大数据隐私刚刚便宜了100倍

Big data privacy for machine learning just got 100 times cheaper 莱斯大学计算机科学家Ashumali Shrivastava(左)和研究生本·科尔曼在使用或共享大型数据库进行机器学习时，发现了一种实现严格的个人数据隐私的廉价方法。信用:杰夫·菲特洛/莱斯大学莱斯大学的计算机科学家发现了一种廉价的方法，让科技公司在使用或共享大型数据库进行机器学习时，实现一种rigorou形式的个人数据隐私。莱斯大学计算机科学副教授安舒玛利·施赖瓦斯塔瓦说:“如果数据隐私能够得到保证，机器学习可以造福社会的例子有很多。“在改善医疗或发现歧视模式方面有巨大的潜力，例如，如果我们可以训练机器学习系统在大型医疗或财务记录数据库中搜索模式。如今，这基本上是不可能的，因为数据隐私方法无法扩展。”

Shrivastava和莱斯的研究生本·科尔曼希望用一种新的方法来改变这种情况，他们将于本周在计算机械协会的计算机和通信安全年度旗舰会议CCS 2021上展示这种方法。希尔瓦斯塔瓦和科尔曼使用一种叫做位置敏感哈希的技术，发现他们可以创建一个庞大的敏感记录数据库的小摘要。他们的方法被称为RACE，它的名字来自这些总结，或“计数估计器的重复阵列”草图。

科尔曼说，RACE草图可以安全地公之于众，对于使用核和的算法(机器学习的基本构件之一)和执行分类、排序和回归分析等常见任务的机器学习程序都很有用。他说，RACE可以让公司既获得大规模、分布式机器学习的好处，又维护一种严格的数据隐私形式，称为差异隐私。

不止一家科技巨头使用的差异隐私是基于添加随机噪声来掩盖个人信息的想法。

科尔曼说:“如今有优雅而强大的技术来满足不同的隐私标准，但没有一种技术是可扩展的。"随着数据变得更加多维，计算开销和内存需求呈指数级增长."

数据的维度越来越高，这意味着它既包含许多观测值，也包含关于每个观测值的许多个体特征。

他说，RACE为高维数据绘制比例尺。草图很小，构建它们所需的计算和内存也很容易分配。

Shrivastava说:“如今的工程师如果希望使用内核总和，就必须牺牲预算或用户隐私。“RACE改变了以差异化隐私发布高维信息的经济学。它简单、快速，运行成本比现有方法低100倍。”

这是Shrivasta和他的学生的最新创新，他们开发了许多算法策略，使机器学习和数据科学更快、更具可扩展性。他们和他们的合作者已经:为社交媒体公司找到了一种更有效的方法来防止错误信息在网上传播，发现了如何为“极端分类”问题训练大规模深度学习系统，速度高达10倍，找到了一种方法来更准确、更有效地估计在叙利亚内战中死亡的已识别受害者人数，展示了在通用CPU(中央处理器)上训练深度神经网络的速度是GPU(图形处理单元)的15倍，并大幅削减了搜索大型宏基因组数据库所需的时间。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/9852.html