物理科技生物学-PHYICA

机器学习模型可以在没有人类帮助的情况下识别视频剪辑中的动作并进行标记

技术工程 2022-06-01 21:53:48

Artificial intelligence system learns concepts shared across video, audio, and text麻省理工学院的研究人员开发了一种机器学习技术,该技术学习以一种捕捉视觉和音频模态之间共享的概念的方式来表示数据。他们的模型可以识别视频中特定动作发生的位置,并对其进行标记。鸣谢:麻省理工学院人类通过不同形式的组合来观察世界,如视觉、听觉和我们对语言的理解。另一方面,机器通过算法可以处理的数据来解释世界。因此,当一台机器“看到”一张照片时,它必须将这张照片编码成它可以用来执行图像分类等任务的数据。当输入以多种格式出现时,如视频、音频剪辑和图像,这个过程变得更加复杂。

“这里的主要挑战是,机器如何将这些不同的模态联系起来?作为人类,这对我们来说很容易。我们看到一辆车,然后听到一辆车驶过的声音,我们知道这是一回事。但对于机器学习来说,这并不是那么简单,”计算机科学和人工智能实验室(CSAIL)的研究生、解决这一问题的论文的第一作者刘鸿志说。

刘和他的合作者开发了一种人工智能技术,该技术学习以捕捉视觉和听觉模态之间共享的概念的方式来表示数据。例如,他们的方法可以学习视频中婴儿哭泣的动作与音频剪辑中的口语单词“哭泣”相关。

利用这些知识,他们的机器学习模型可以识别视频中某个动作发生在哪里,并对其进行标记。

在跨模态检索任务中,它比其他机器学习方法表现更好,这些任务涉及找到一段数据,如视频,与用户以另一种形式(如口语)给出的查询相匹配。他们的模型也让用户更容易明白为什么机器认为它检索到的视频符合他们的查询。

这项技术有朝一日可以用来帮助机器人通过感知来学习世界上的概念,就像人类一样。

与刘一起发表论文的还有中国海洋科学院博士后金素英;研究生赖杰夫和安德鲁·鲁迪坚科;Aude Oliva,CSAIL高级研究科学家,麻省理工学院MIT-IBM Watson AI实验室主任;资深作者詹姆斯·格拉斯,高级研究科学家,CSAIL口语系统组组长。这项研究将在计算语言学协会的年会上发表。

学习表征

研究人员将工作重点放在表征学习上,这是一种机器学习的形式,旨在转换输入数据,使其更容易执行分类或预测等任务。

表示学习模型获取原始数据,如视频及其相应的文本字幕,并通过提取特征或对视频中的对象和动作的观察来编码它们。然后,它将这些数据点映射到一个网格中,称为嵌入空间。该模型将相似的数据作为网格中的单点聚集在一起。这些数据点或向量中的每一个都由一个单独的单词来表示。

例如,一个人杂耍的视频剪辑可能被映射到一个标记为“杂耍”的向量

研究人员对模型进行了限制,因此它只能使用1000个单词来标记向量。该模型可以决定将哪些动作或概念编码到单个向量中,但它只能使用1000个向量。模型选择它认为最能代表数据的词。

他们的方法不是将来自不同模态的数据编码到单独的网格上,而是采用一个共享的嵌入空间,其中两种模态可以一起编码。这使得模型能够从两种模态中学习表征之间的关系,比如显示一个人在变戏法的视频和某人说“变戏法”的音频记录

为了帮助系统处理来自多种模态的数据,他们设计了一种算法,引导机器将相似的概念编码到同一个向量中。

“如果有一个关于猪的视频,模型可能会将单词‘pig’分配给1000个向量中的一个。然后,如果模型在音频剪辑中听到有人说“猪”这个词,它仍然应该使用相同的向量来编码,”刘解释说。

更好的猎犬

他们使用三个数据集在跨模态检索任务上测试了该模型:具有视频剪辑和文本字幕的视频-文本数据集,具有视频剪辑和语音音频字幕的视频-音频数据集,以及具有图像和语音音频字幕的图像-音频数据集。

例如,在视频-音频数据集中,模型选择了1000个单词来代表视频中的动作。然后,当研究人员向它输入音频查询时,该模型试图找到与这些口语词最匹配的片段。

“就像谷歌搜索一样,你输入一些文本,机器会试图告诉你你正在搜索的最相关的东西。只有我们在向量空间中这样做,”刘说。

他们的技术不仅比他们比较的模型更可能找到更好的匹配,而且也更容易理解。

因为该模型只能使用总共1000个单词来标记向量,所以用户可以更容易地看到机器使用了哪些单词来推断视频和口语单词是相似的。刘说,这可以使该模型更容易应用于现实世界的情况,在现实世界中,用户理解它如何决策是至关重要的。

该模型仍有一些局限性,他们希望在未来的工作中解决。刘说,首先,他们的研究一次集中于两种模式的数据,但在现实世界中,人类会同时遇到许多数据模式。

“我们知道1000个单词适用于这种数据集,但我们不知道它是否可以推广到现实世界的问题,”他补充道。

此外,他们的数据集中的图像和视频包含简单的对象或简单的动作;真实世界的数据要混乱得多。他们还想确定当有更广泛的输入多样性时,他们的方法有多好。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/17408.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~