一个可以为说话的脸创建逼真动画的模型

A model that can create realistic animations of talking faces Credit: Biswas等近年来，计算机生成的动物和人类动画变得越来越细致和逼真。尽管如此，制作令人信服的人物面部动画仍然是一个关键挑战，因为这通常需要一系列不同音频和视频元素的成功组合。印度TCS Research的一组计算机科学家最近创造了一种新模型，可以产生高度逼真的说话面部动画，将音频记录与角色的头部运动结合起来。在第十二届印度计算机视觉、图形和图像处理会议ICVGIP 2021上提交的一篇论文中介绍了这一模型，该模型可用于创建更令人信服的虚拟化身、数字助理和动画电影。

开展这项研究的研究人员之一布罗耶什瓦尔·博米克(Brojeshwar Bhowmick)在接受TechXplore采访时表示:“为了获得愉快的观看体验，真实感的感知至关重要，尽管最近的研究取得了进展，但真实感说话脸的生成仍然是一个具有挑战性的研究问题。“除了精确的嘴唇同步，逼真的说话面部动画还需要其他的真实感属性，如自然眨眼、头部运动和保留任意目标面部的身份信息。”

大多数现有的用于生成面部动画的语音驱动方法集中于确保嘴唇运动和记录的语音之间的良好同步，保持角色的身份并确保其偶尔眨眼。这些方法中的一些也试图产生令人信服的头部动作，主要是通过在短训练视频中模仿人类说话者的动作。

“这些方法从驾驶视频中推导出头部的运动，这可能与当前的语音内容不相关，因此对于长时间演讲的动画来说似乎不现实，”博米克说。"一般来说，头部运动很大程度上取决于当前时间窗内语音的韵律信息."

过去的研究发现，人类说话者的头部动作与他们声音的音高和振幅之间有很强的相关性。这些发现启发了博米克和他的同事创造了一种新的方法，可以为面部动画产生头部运动，反映角色的声音和他/她在说什么。

在他们之前的一篇论文中，研究人员提出了一种基于生成对抗网络的架构，可以生成令人信服的人脸说话动画。虽然这种技术很有前途，但它只能产生扬声器头部不动的动画。

“我们现在开发了一个完整的语音驱动的逼真面部动画管道，通过设计一种分层的方法来解开运动和纹理的学习，生成具有准确的嘴唇同步、自然眨眼和真实头部运动的说话面部视频，”博米克说。“我们学习面部标志上的语音诱导运动，并使用标志生成动画视频帧的纹理。”

由Bhowmick和他的同事创建的新的生成模型可以有效地为动画说话g脸生成语音驱动的和真实的头部运动，这与说话者的声音特征和他/她正在说什么密切相关。就像他们过去创造的技术一样，这个新模型基于GANs，一类被发现非常有希望生成人工内容的机器学习算法。

该模型可以在特定的时间窗口内识别说话者在说什么以及他/她的声音语调。随后，它使用这些信息来产生匹配和相关的头部运动。

博米克说:“我们的方法从根本上不同于最先进的方法，后者专注于从目标主体的大量驾驶视频中生成特定人的谈话风格。“鉴于音频和头部运动之间的关系并不是唯一的，我们的注意力机制试图学习局部音频特征对局部头部运动的重要性，从而随着时间的推移保持预测平滑，而不需要在测试时输入任何驾驶视频。我们还使用元学习来生成纹理，因为它有助于在测试时使用很少的图像快速适应未知的人脸。”

博米克和他的同事在一系列基准数据集上评估了他们的模型，将它的性能与过去开发的最先进技术进行了比较。他们发现，它可以生成高度令人信服的动画，具有出色的嘴唇同步、自然眨眼和连贯的头部动作。

博米克补充说:“我们的工作朝着实现逼真的说话面部动画迈出了一步，这些动画可以转化为多个现实世界的应用，例如数字助理、视频配音或远程呈现。“在我们接下来的研究中，我们计划将逼真的面部表情和情绪与嘴唇同步、眨眼和连贯的头部动作结合起来。”

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/12659.html