物理科技生物学-PHYICA

机器学习揭示了文化在塑三津なつみ造词义中的作用

科学新闻 2021-12-21 00:04:08

作者:雷切尔·努维尔,普林斯顿大学 研究人员利用机器学习创建了第一个大规模的数据驱动研究,以阐明文化如何影响单词的含义

信用:巴别塔的绘画由彼得·布鲁盖尔老人,维也纳,奥地利维也纳,库史托什博物馆 美丽这个词是什么意思?这不仅取决于你问谁,还取决于你用什么语言问他们

根据普林斯顿大学对几十种语言进行的机器学习分析,单词的意思不一定指一个内在的、必要的常数

相反,它受到文化、历史和地理的显著影响

这一发现甚至适用于一些看似普遍的概念,如情感、景观特征和身体部位

普林斯顿大学计算机科学博士后研究员威廉·汤普森是发表在《自然·人类行为》8月号上的这项研究的主要作者,他说:“即使每天你认为对每个人来说意义相同的单词,也有各种各样的变化。”

10

“我们已经提供了第一个数据驱动的证据,证明我们通过文字解读世界的方式是我们文化传承的一部分

" 语言是我们概念化和理解世界的棱镜,语言学家和人类学家长期以来一直试图解开塑造这些关键沟通系统的复杂力量

但试图解决这些问题的研究可能很难进行,也很耗时,通常需要对评估翻译质量的双语者进行长时间的仔细采访

汤普森说:“记录一对特定的语言以及它们之间的差异可能需要很多年。”

“但是机器学习模型最近出现了,它让我们能够以更高的精确度来问这些问题

" 在他们的新论文中,美国布里斯托大学的汤普森和他的同事塞恩·罗伯茨

K

威斯康辛大学麦迪逊分校的加里·卢皮安利用这些模型的力量分析了41种语言的1000多个单词

这种大规模的方法不是试图定义单词,而是使用“语义关联”的概念,或者简单地说,是指彼此之间有意义关系的单词,语言学家认为这是定义一个单词并将其与另一个单词进行比较的最佳方式之一

例如,“美丽”的语义联想包括“多彩的”、“爱”、“珍贵的”和“精致的”

" 研究人员建立了一种算法,检测在不同语言上训练的神经网络,以比较数百万个语义关联

该算法将一个特定单词的语义关联翻译成另一种语言,然后反过来重复这个过程

例如,该算法将“美丽”的语义关联翻译成法语,然后将“博”的语义关联翻译成英语

该算法对一个单词意思的最终相似性评分来自量化语义在翻译的两个方向上对齐的紧密程度

该算法将一个特定单词的语义关联翻译成另一种语言,然后反过来重复这个过程

在这个例子中,“美丽”的语义邻居被翻译成法语,然后“博”的语义邻居被翻译成英语

由于不同的文化联系,各自的名单有很大的不同

图像礼貌研究者

学分:普林斯顿大学 汤普森说:“观察我们所做工作的一种方法是用数据驱动的方式来量化哪些单词最容易翻译。”

研究结果显示,有一些几乎普遍可翻译的词汇,主要是指数字、职业、数量、日历日期和亲属关系

然而,许多其他类型的词,包括那些涉及动物、食物和情感的词,在意义上就不那么匹配了

在最后一步中,研究人员应用了另一种算法来比较产生这两种语言的文化有多相似,该算法基于人类学数据集,比较了特定语言使用者的婚姻习俗、法律制度和政治组织等情况

研究人员发现,他们的算法可以根据说两种语言的两种文化的相似程度来正确预测两种语言的翻译难易程度

这表明词义的可变性不仅仅是随机的

文化在塑造语言方面扮演着重要角色——这是一个理论早就预测到的假设,但研究人员缺乏量化数据来支持

哈佛大学的语言学家达米安·布拉希没有参与这项新的研究,他说:“这是一篇非常好的论文,为词汇语义学研究的核心问题提供了有原则的量化。”

布拉希说,虽然这篇论文没有对所有影响词义差异的因素给出明确的答案,但作者建立的方法是合理的,使用多种多样的数据源“是一个积极的变化,这个领域系统地忽视了文化的作用,倾向于心理或认知的共性

" 汤普森同意,他和他的同事们的发现强调了“管理不太可能的数据集的价值,这些数据集通常不会在相同的环境中出现

“他和他的同事使用的机器学习算法最初是由计算机科学家训练的,而他们输入模型进行分析的数据集是由20世纪的人类学家以及最近的语言学和心理学研究创建的

正如汤普森所说,“在这些新奇的新方法背后,有一个多领域的人收集数据的完整历史,我们把这些数据汇集在一起,用一种全新的方式来看待它们

"

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/kexuexinwen/6336.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~