语言处理程序可以给一个单词分配多种信息，就像人脑一样

类别“动物”(蓝色圆圈)中的 Language processing programs can assign many kinds of information to a single word, like the human brain Word向量被正交投影(浅蓝色线)到“大小”(红色线)的特征子空间上，大小被定义为大和小(红色圆圈)之间的向量差。该图中的三个维度是任意的，是通过主成分分析选择的，以增强可视化；原始的手套词嵌入有300个维度，投射就发生在那个空间。鸣谢:Fedorenko实验室从搜索引擎到语音助手，计算机越来越能理解我们的意思。这要归功于语言处理程序，它们能理解数量惊人的单词，却从来没有被明确告知这些单词是什么意思。这种程序通过统计来推断意思——一项新的研究表明，这种计算方法可以给一个单词分配多种信息，就像人脑一样。这项研究发表在4月14日的《自然人类行为》杂志上，由麻省理工学院计算机科学和人工智能实验室附属的电气工程和计算机科学研究生Gabriel Grand和加州大学洛杉矶分校助理教授Idan Blank博士共同领导。这项工作由麦戈文大脑研究所的调查员E·v·费多伦科和美国国家心理健康研究所的弗朗西斯科·佩雷拉监督，费多伦科是一位研究人类大脑如何使用和理解语言的认知神经科学家。Fedorenko说，她的团队在计算语言模型中发现的丰富知识证明了仅仅通过语言就可以了解世界。

研究小组在2015年开始分析基于统计的语言处理模型，当时这种方法还是新的。这种模型通过分析成对的单词在文本中出现的频率，并使用这些关系来评估单词意思的相似性，从而得出意思。例如，这样的程序可能会得出这样的结论，即“面包”和“苹果”彼此之间的相似性比它们与“笔记本”之间的相似性更大，因为“面包”和“苹果”经常出现在像“吃”或“零食”这样的词附近，而“笔记本”则不是。

这些模型显然擅长于衡量单词之间的整体相似性。但是大多数单词携带多种信息，它们的相似性取决于被评估的品质。“人类可以想出所有这些不同的心理尺度来帮助组织他们对单词的理解，”前Fedorenko实验室本科生研究员Grand解释说。例如，他说，“海豚和短吻鳄可能大小相似，但其中一种比另一种更危险。”

Grand和Blank当时是麦戈文研究所的研究生，他想知道这些模型是否捕捉到了同样的细微差别。如果有，信息是如何组织的？

为了了解这种模型中的信息如何与人类对单词的理解相结合，该团队首先要求人类志愿者按照许多不同的尺度对单词进行评分:这些单词传达的概念是大还是小，安全还是危险，湿还是干？然后，在绘制了人们在这些尺度上放置不同单词的位置后，他们观察语言处理模型是否也这样做。

Grand解释说，分布式语义模型使用共现统计将单词组织成一个巨大的多维矩阵。单词之间越相似，它们在空间中的距离就越近。空间的维度是巨大的，并且没有内在的意义构建到它的结构中。“在这些单词嵌入中，有数百个维度，我们不知道任何维度意味着什么，”他说。“我们真的试图窥视这个黑匣子，并说，‘这里有结构吗？’"

具体来说，他们询问他们要求志愿者使用的语义尺度是否在模型中有所体现。因此，他们观察空间中的单词沿着由这些尺度的极端定义的向量排列的位置。例如，海豚和老虎从“大”到“小”的位置在哪里？他们在这条线上比在代表危险的线上靠得更近吗(“安全”到“危险”)。

在超过50组世界类别和语义尺度中，他们发现该模型组织的单词非常像人类志愿者。海豚和老虎在大小上被认为是相似的，但在衡量危险或潮湿的尺度上却相差甚远。该模型以一种代表多种含义的方式组织单词，并且完全基于单词的共现。

费多伦科说，这告诉我们一些关于语言的力量。“我们可以从这些简单的单词共现统计数据中恢复如此丰富的语义信息，这一事实表明，这是一个非常强大的学习资源，你甚至可能没有直接的感性经验。”

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/17350.html