研究人员研究多语言BERT模型如何编码语法香奈儿妆前乳特征

Researchers examine how multilingual BERT models encode grammatical features 对于每一层(x轴)，研究者预测一个名词是主语(A)的时间比例，用语法角色分隔。在较高的层次中，不及物主语大多被归类为主语。当源语言为巴斯克语(作格)或印地语或乌尔都语(分裂作格)时，S不太可能以A为模式，图形按S线与A的接近程度排序，作格和分裂作格语言用灰色方框突出显示。Credit: Papadimitriou等人在过去的几十年里，研究人员开发了基于深度神经网络的模型，可以完成广泛的任务。其中一些技术是专门设计来处理和生成多种语言的连贯文本，翻译文本，回答关于文本的问题，并创建新闻文章或其他在线内容的摘要。具有语言能力的深度学习系统已经广泛可用，例如，以实时翻译应用程序、文本分析工具和虚拟助手(如Siri、Alexa、Bixby、Google Assistant和Cortana)的形式。其中一些系统使用谷歌发布的特定深度学习模型，称为多语言BERT (mBERT)。这个模型同时接受了大约100种语言的训练。这允许它完成各种语言任务，例如，将内容从一种语言翻译成另一种语言。

用户可以用多种语言与基于mBERT的系统交互，从英语、西班牙语和法语到巴斯克语和印尼语。虽然已经发现mBERT模型在许多语言任务中表现良好，但它如何编码语言相关信息并做出预测仍知之甚少。

斯坦福大学、加州大学欧文分校和加州大学圣巴巴拉分校的研究人员最近进行了一项研究，旨在更好地理解基于mBERT的技术是如何工作的，以及它们是如何编码语法特征的。他们的论文的主要作者是伊莎贝尔·帕帕迪米特里乌，斯坦福大学计算机科学的研究生，将在EACL的计算语言学会议上发表。这篇论文提供了对这些常用模型的基础以及它们在完成各种任务时如何分析语言的有价值的见解。

加州大学圣巴巴拉分校的语言学家、监督这项研究的高级研究人员之一凯尔·马沃尔德告诉TechXplore:“像多语言BERT这样的模型非常强大，但是，与预先训练的深度学习模型不同，它们实际包含什么信息并不明显，即使对它们的创造者来说也是如此。“那是因为模型是训练出来的，不是编程出来的；因此，他们通过大量数据的训练过程来学习参数。”

本质上，mBERT模型将文本表示为一系列向量，每个向量由数千个数字组成。每个向量对应一个单词，而单词之间的关系在高维空间中被编码为几何关系。

“因为这些模型在处理人类语言方面做得非常好，我们知道这些数字向量必须代表语言知识，”Mahowald说。“但是它们是如何编码这些信息的，这和知识在人脑中的表现方式有什么相似之处吗？我们的工作是理解语言的深层神经模型表示和使用语言信息的方式的努力的一部分。”

理解mBERT模型如何编码语言与试图理解人类如何处理语言没有太大区别。因此，最近这项研究背后的团队由计算机科学家和语言学家组成。他们的主要目标是确定mBERT向量模型是否真的包含人类语言及其结构的一些更深层次的信息。更具体地说，他们想确定这些模型是否自动揭示了几十年来语言学研究认为对语言分析特别有用的概括。

加州大学欧文分校的语言科学家、该项目的另一位高级顾问理查德·福特尔(Richard Futrell)说:“现在是学习计算语言学的特别激动人心的时刻。“多年来，语言学家一直在谈论像‘语义空间’这样的想法，认为单词和短语的含义是某个空间中的点，但这一切都有些模糊和印象主义。现在，这些理论已经变得非常精确了:我们实际上有一个模型，其中一个单词的意思是空间中的一个点，这个模型的行为确实表明它理解(一些)人类语言。”

为了处理人类语言，mBERT模型和其他基于深度学习的语言分析框架实际上可能重新发现了语言学研究者在深入分析人类语言后设计的理论。或者，他们可能基于全新的语言理论或规则进行预测。Mahowald和他的同事想进一步探索这两种可能性，因为理解这些计算技术如何编码语言对计算机科学和语言学的研究都有重要的意义。

Futrell说:“了解这些模型是如何工作的(即他们学到了什么信息以及如何使用这些信息)，不仅在科学上令人着迷，如果我们想开发我们可以使用和信任的AI系统，这也是实际上至关重要的。“如果我们不知道一个语言模型知道什么，那么我们就不能相信它会做正确的事情(即它的翻译将是正确的，它的摘要将是准确的)，我们也不能相信它没有学到种族或性别偏见等不受欢迎的东西。”

由于mBERT模型通常是在人类编译的数据集上训练的，它们可能会犯一些人类在处理语言相关问题时经常犯的错误。这项由多学科团队开展的研究可以在揭示人工智能工具在分析语言时犯的一些错误和其他错误方面发挥作用。首先，研究人员着手调查mBERT模型如何代表不同语言中主体和客体之间的差异(即，谁在做什么，对谁/什么)。

“当一个句子被输入到mBERT中时，每个单词都会得到一个向量表示，”Mahowald说。“我们建立了一个新模型(比mBERT小得多)，然后我们问:如果我们给你一个来自mBERT的单词向量，你能告诉我们它是主语还是宾语吗？也就是说，这里是‘狗’这个词的表示。“你能告诉我们‘狗’这个用法是否是一个句子的主语，就像《狗追猫》中那样？或句子的宾语，如“猫追狗？”"

人们可能会假设主语和宾语的关系在所有语言中都有描述，并且它们以相似的方式表示。然而，在不同的语言中，主语和宾语的构成实际上有巨大的差异。Papadimitriou和她的同事试图利用这些差异来更好地理解mBERT模型是如何处理句子的。

帕帕迪米特里乌说:“如果你说一种像英语这样的语言，那么很明显《狗追猫》中的‘狗’这个词和《狗跑了》中的‘狗’扮演着相似的角色。”在第一种情况下，动词有宾语(“猫”)，在第二种情况下，它没有宾语；但在这两种情况下，“狗”是主体，代理人，行动者，在第一句话中，“猫”是对象——对它做了什么的东西。然而，并非所有语言都是如此。"

英语和欧洲所说的大多数语言都有一种被称为主格对齐的结构，这种结构清楚地描述了句子中的主语和宾语。另一方面，一些语言，包括巴斯克语、印地语和格鲁吉亚语，使用一种被称为作格对齐的结构。在作格对齐中，没有宾语的句子中的主语(例如，句子“the dog ran”中的“dog”一词)更像一个宾语，因为它遵循用于宾语的语法结构。

“我们工作的主要目标是测试多语言BERT是否理解这种对齐、作格或主格的想法，”Papadimitriou说。“换句话说，我们问:多语言BERT在深层次上是否理解(1)什么构成了动词的施事者和受事者，以及(2)不同的语言如何将这个空间分割成主语和宾语？事实证明，一次接受大约100种语言训练的mBERT，以有趣的语言方式意识到了这些区别。”

这些发现为mBERT模型以及其他用于语言分析的计算模型如何表示语法信息提供了新的有趣的见解。有趣的是，研究人员检查的基于mBERT向量表示的模型也被发现会产生一致的错误，这些错误可能与正在处理语言的人类产生的错误一致。

帕帕迪米特里乌说:“在不同的语言中，我们的模型更有可能错误地将一个主语称为一个宾语，而这个主语是一个无生命的名词，意思是一个不是人或动物的名词。“这是因为大多数句子中的实干家往往是有生命的名词:人或动物。事实上，一些语言学家认为主语实际上是一个范围。作为人类的受试者比作为动物的受试者更‘服从-y’，而作为动物的受试者比既不是人类也不是动物的受试者更服从-y，这正是我们的模型似乎在mBERT中发现的。”

总的来说，研究表明mBERT模型识别句子中的主语和宾语，并以与现有语言学文献一致的方式表示两者之间的关系。在未来，这一重要发现将有助于计算机科学家更好地理解深度学习技术是如何处理人类语言的，从而帮助他们进一步提高自己的表现。

“我们现在希望继续探索语言的深层神经模型在其连续向量空间中表示语言类别(如主语和宾语)的方式，”Mahowald说。“具体来说，我们认为语言学的工作可以为我们思考这些模型的方式和它们正在做的事情提供信息。语言学的工作试图将像主语和宾语这样的角色描述为一组特征，而不是离散的类别。”

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/kexuexinwen/962.html