在 SIGGRAPH 2021 大会的实时直播展示中,NVIDIA 研究人员为数字化身技术作品注入了四个 AI 模型,荣获“最佳展示”奖。
这场演示盛宴是今年以虚拟形式举行的世界大型计算机图形大会上最令人期待的活动之一,庆祝各种跨越游戏技术、增强现实和科学可视化的前沿实时项目。该展示包括一系列由评委会评审的交互式项目,演讲者来自 Unity Technologies、伦斯勒理工学院、纽约大学未来现实实验室等等。
NVIDIA 研究团队从硅谷总部现场直播,展示了一系列能够创建栩栩如生的虚拟角色的 AI 模型,适用于带宽高效视频会议和故事讲述等项目。
该演示包括各种工具,可从单张照片生成数字化身,制作具有自然 3D 面部动作的化身动画,以及将文本转换为语音。感兴趣的知友们可以点击下面这个视频,观看展示记录:
NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 在演讲中表示:“制作数字化身是一个非常困难、繁琐而且昂贵的过程。”但是借助 AI 工具,“我们可以轻松创建真实人物以及卡通角色的数字化身。它可用于视频会议、故事讲述、虚拟助理和许多其他应用领域。”
AI 在面试中表现出色
在演示中,两位 NVIDIA 研究科学家分别扮演面试官和应聘者的角色,通过视频会议进行交谈。在通话过程中,面试者展示了 AI 驱动的数字化身技术如何能够与面试官进行沟通。
扮演应聘者的研究人员在整个过程中使用一台 NVIDIA RTX 笔记本电脑,而另一名研究人员使用的是由 RTX A6000 GPU 提供支持的台式工作站。整个流程还可以在云中的 GPU 上运行。
应聘者坐在校园的咖啡厅里,戴着棒球帽和口罩,使用 Vid2Vid Cameo 模型在视频通话中呈现出穿着有领子的衬衣、胡子刮得干干净净的形象(见上图)。AI 模型依据对象的单张照片创建逼真的数字化身,无需 3D 扫描或专门训练的图像。
他展示了自己的另外两张照片,并且表示:“数字化身的创建在一瞬间就能完成,所以我能够使用不同的照片迅速创建不同的化身。”
该研究人员的系统并不传输视频流,而是只发送了他的声音,然后将声音输送到NVIDIA Omniverse Audio2Face 应用程序。Audio2Face 通过声音便可生成头部、眼睛和唇部的自然动作,以便在 3D 头部模型上实时匹配音频输入。这种面部动画进入 Vid2Vid Cameo,与演讲者的数字化身合成为表现自然的动作。
除了逼真的数字化身之外,该研究人员还通过 Audio2Face 和 Vid2Vid Cameo 输送了他的演讲,为动画角色配音。他表示,使用 NVIDIA StyleGAN,开发者能够以卡通角色或者绘画为模型,创建出无限的数字化身。
这些模型经过优化,在 NVIDIA RTX GPU 上运行,能够以每秒 30 帧的速度轻松传输视频。此外,它还具有很高的带宽效率,因为演讲者只通过网络发送音频数据,而不是传输高分辨率视频源。
更进一步,该研究人员展示,当咖啡厅环境变得过于嘈杂,RAD-TTS 模型能够将输入的消息转换为他的声音,取代输送到 Audio2Face 中的声音。基于深度学习的突破性文本转语音工具可以在几毫秒内通过任意文本输入来合成栩栩如生的语音。
研究团队在演示的最后展示,RAD-TTS 能够合成各种声音,从而帮助开发者生动地呈现书中的角色,甚至说唱 Eminem 的《The Real Slim Shady》。