物理科技生物学-PHYICA

大型计算机语言模型樱井南带有环境和社会风险

科学新闻 2021-10-07 21:54:32

computer model Credit: CC0公共领域世界上最大的公司和大学的计算机工程师正在使用机器扫描大量书面材料。目标?教这些机器语言的天赋。有人甚至声称,这样做,计算机将能够模仿人脑。但是,根据一篇题为《论随机鹦鹉的危险:语言模型会不会太大》的新论文,这种令人印象深刻的计算能力伴随着真实的成本,包括延续种族主义和造成重大环境破坏该论文将于3月10日星期三在美国计算机学会公平、责任和透明度会议上发表。

华盛顿大学语言学教授艾米丽·本德(Emily M. Bender)说,这是围绕语言学习技术快速发展带来的风险的文献的第一次全面回顾,她是该论文的主要作者,也是著名的人工智能研究人员Timnit Gebru。

“我们要问的问题是,这种方法可能有什么危险,我们给出的答案包括调查一系列领域的文献,并将它们整合在一起,”本德说,他是UW·霍华德和弗朗西斯·诺斯特兰德的捐赠教授。

研究人员发现,投入到自然语言模型中的不断增长的计算能力也有缺点。他们讨论了日益增长的语言建模训练数据如何加剧社会和环境问题。令人担忧的是,这种语言模式使霸权语言永久化,并会欺骗人们,使他们认为他们是在与人进行“真实”的对话,而不是在与机器对话。这些模型日益增长的计算需求进一步加剧了环境退化。

作者们之所以有动力写这篇论文,是因为该领域的趋势是语言模型越来越大,影响范围也越来越大。

该论文已经引起了广泛关注,部分原因是该论文的两位合著者表示,他们最近被谷歌解雇,原因仍未确定。两位现已离职的谷歌研究员玛格丽特·米歇尔和格布鲁说,他们对该论文的学术成果表示赞赏,并指出其结论是对工业界的一个响亮的号召。

人工智能研究员米切尔说:“很明显,现在就必须提出这些担忧,因为已经太晚了。

本德说,为模型语言程序提供燃料需要巨大的计算能力。作者认为,这极大地消耗了能源,并导致环境恶化。这些成本不是由计算机工程师承担的,而是由负担不起环境成本的边缘化人群承担的。

本德说:“这里不仅有巨大的能源影响,而且这种影响的碳影响将首先给没有从这项技术中受益的人带来成本。“当我们进行成本效益分析时,重要的是要考虑谁获得了效益,谁付出了成本,因为他们不是同一批人。”

这种计算能力的巨大规模也可能限制只有资源最丰富的公司和研究团体才能访问,从而将美国、加拿大、欧洲和中国以外的小型开发人员排除在外。这是因为需要巨大的机器来运行必要的软件,让计算机模仿人类的思维和语言。

作者说,另一个风险来自训练数据本身。因为计算机从网络和其他来源读取语言,所以它们可以接收并延续种族主义、性别歧视、能干主义、极端主义和其他有害的意识形态。

“人们陷入的谬误之一是,嗯,互联网很大,互联网就是一切。如果我只是刮擦整个互联网,那么显然我已经纳入了不同的观点,”本德说。“但当我们对文献进行一步一步的回顾时,它说现在不是这样,因为不是每个人都在互联网上,在互联网上的人,不是每个人都乐于以同样的方式参与社交。”

而且,人们可以混淆真实人类交互的语言模型,认为他们实际上是在和一个人说话,或者阅读一个人说过或写过的东西,而事实上,语言来自机器。因此,随机鹦鹉。

“它产生了这种看似连贯的文本,但它没有交际意图。它不知道自己在说什么。那里没有,”班德说。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/kexuexinwen/1461.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~