物理科技生物学-PHYICA

节能联合学习大地めぐみ能拯救世界吗?

技术工程 2021-11-07 07:29:24

aiCredit:CC0 Public Domain Training支撑网络搜索引擎、为智能助手提供动力并实现无人驾驶汽车的人工智能模型消耗了数兆瓦的能源,并产生了令人担忧的二氧化碳排放。但是训练这些模型的新方法被证明是更环保的。人工智能模型在当今世界的应用越来越广泛。许多人执行自然语言处理任务,如语言翻译、预测文本和电子邮件垃圾过滤器。它们还被用来授权智能助手,如Siri和Alexa,与我们“交谈”,并操作无人驾驶汽车。

但是,为了运行良好,这些模型必须在大数据集上进行训练,这个过程包括对它们输入的每一条数据进行许多数学运算。他们正在训练的数据集越来越大:最近的一个自然语言处理模型是在一个400亿字的数据集上训练的。

因此,训练过程中消耗的能量在飙升。大多数人工智能模型都是在大型数据中心的专业硬件上进行培训的。根据《科学》杂志最近的一篇论文,在过去十年里,数据中心消耗的能源总量约占全球能源使用量的1%,相当于大约1800万个美国家庭。2019年,麻省大学的一组研究人员估计,训练一个用于自然语言处理的大型人工智能模型,可以产生大约与五辆汽车在其整个生命周期内产生的二氧化碳排放量相同的二氧化碳排放量。

考虑到这一点,剑桥大学的研究人员着手研究更节能的方法来训练人工智能模型。他们与牛津大学、伦敦大学学院和阿维尼翁大学的合作者合作,探索了一种不同形式的培训——称为联合学习——对环境的影响,并发现它有一个明显更环保的协议。联合学习不是在数据中心训练模型,而是在大量单独的机器上训练模型。研究人员发现,这可以导致比传统学习更低的碳排放。

高级讲师尼克·莱恩博士解释了当培训不是在大型数据中心内进行,而是在数千台移动设备上进行时,它是如何工作的,这些设备通常由手机用户自己收集数据。

“目前使用联合学习的一个应用例子是手机中的下一个单词预测,”他说。“每部智能手机都会训练一个本地模型,根据用户之前的短信,预测用户接下来会输入哪个单词。一旦经过训练,这些本地模型就会被发送到服务器。在那里,它们被聚合成一个最终模型,然后发送回所有用户。”

与莱恩博士合作的博士后研究员佩德罗·波尔图·布阿尔克·德·古斯芒博士指出,这种方法不仅有利于环境,也有利于隐私。

“用户可能不想与第三方分享他们的文本内容,”他解释道。“在联合学习中,我们可以将数据保留在本地,并一起利用数百万台移动设备的集体力量来训练AI模型,而用户的原始数据永远不会离开手机。"

“除了这些与隐私相关的收获,”莱恩博士说,“在我们最近的研究中,我们已经表明联合学习也可以对减少碳排放产生积极影响。

“尽管智能手机的处理能力远低于数据中心使用的硬件加速器,但它们不需要像加速器那样多的冷却能力。这就是将模型培训分布在大量设备上的好处。”

研究人员最近就此共同撰写了一篇名为“联合学习能拯救地球吗?”并将在5月11日的国际研究会议“2021年花卉峰会”上讨论他们的发现。

在他们的论文中,他们首次系统地研究了联合学习的碳足迹。他们通过训练两个模型来测量联合学习etup的碳足迹——一个在图像分类中,另一个在语音识别中——使用一个服务器和两个在联合方法所针对的简单设备中流行的芯片组。他们记录了培训期间的能耗,以及根据芯片组和服务器在世界上的位置,能耗可能会如何变化。

他们发现,虽然各国之间的二氧化碳排放因素存在差异,但在许多常见应用环境下的联合学习确实比集中培训“干净”。

训练一个模型来对大图像数据集中的图像进行分类,他们发现法国的任何联合学习设置比中国和美国的任何集中式设置排放的二氧化碳都少。在训练语音再认知模型时,联合学习比任何国家的集中式训练都更有效。

后续研究中的一组扩展实验进一步支持了这一结果(“联邦learnin g的碳足迹初探”),该实验室探索了更广泛的数据集和人工智能模型。这项研究也为未来的联合学习提供了必要的形式主义和更低碳排放的算法基础。

基于他们的研究,研究人员提供了一个首创的“联合学习碳计算器”,这样公众和其他研究人员就可以估计任何给定的设备池产生了多少二氧化碳。它允许用户详细说明他们正在使用的设备的数量和类型、他们在哪个国家、他们正在使用哪些数据集和上传/下载速度,以及每个设备在发送其模型进行聚合之前根据自己的数据进行训练的次数。

他们还提供了一个类似的计算器来估算集中式机器学习的碳排放。

“人工智能的发展和使用在气候变化的悲剧中扮演着越来越重要的角色,”莱恩博士说,“随着这项技术在社会中的不断普及,这个问题只会恶化。我们迫切需要解决这个问题,这就是为什么我们愿意分享我们的发现,表明在重要的应用场景下,联合学习方法可以比数据中心产生更少的二氧化碳。

“但更重要的是,我们的研究也揭示了联合学习应该如何向更广泛的环境友好型发展。像这样的分散方法将是未来几年人工智能未来可持续形式发明的关键。”

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/3701.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~