变脸视频已经被玩腻了。你能错过假的模仿声音吗？@慕课网原创_慕课网

内容详细信息

什么是音频深度假

我们大多数人都看过视频Deepfake，它使用深度学习算法将一个人替换成另一个人的化身。现在，轮到音频了。

音频深度伪造指的是使用“克隆的”声音来产生合成音频，这种声音可能无法与真实的人区分开来。“这就像声音的Photoshop，”like首席执行官Zohaib Ahmed在谈到该公司的声音克隆技术时说，但糟糕的Photoshop操作很容易暴露出来。

我们与之交谈过的一家安全公司表示，人们通常只能猜测音频Deepfake是真是假，准确率约为57%，这仅略高于抛硬币来猜测正反两方面。此外，由于许多语音录音都是低质量的电话通话(或嘈杂场所的录音)，这可能会使音频深度伪造更加难以区分。

声音质量越差，辨别这些假声音就越困难。

声音成功故事

事实上，合成音频有巨大的市场需求。根据艾哈迈德，的说法，“投资回报非常高。”

在游戏中尤其如此。在过去，语音是一个不能在游戏中按需创建的组件。即使在实时呈现电影质量场景的交互式标题中，与非播放角色的语言交互也基本上是静态的。

但是现在，科技已经赶上了。该工作室有潜力克隆演员的声音，并使用文本转换为语音引擎，这样角色就可以实时说任何话。

在广告、技术和客户支持方面有更多的传统用途。在这里，重要的是发出一个真实的人类声音，并在没有人类输入的情况下做出个人的和上下文相关的响应。

声音克隆公司也对医学应用感到兴奋。当然，言语替代在医学上并不新鲜。斯蒂芬霍金在1985年失去自己的演讲后，他使用了机器人合成的演讲。然而，现代语音克隆有望带来更好的结果效果。

CereProc(网站：https://www.cereproc.com/en/home)发布了一个网页，允许人们输入信息，然后前总统乔治布什的声音出现了。

CereProc首席科学官马修埃莱特(Matthew Aylett)说：“埃伯特看到后想，‘如果他们能模仿布什的声音，他们应该也能模仿我的声音’。”然后，埃伯特要求该公司创造一个替代的声音，这是通过处理一个大的声音记录库实现的。"

艾利特说：“这可能是人类第一次这样做。这是一个真正的成功。”

近年来，许多公司(包括CereProc)与肌萎缩侧索硬化症协会合作，为肌萎缩侧索硬化症患者提供全面的声音，如霍金

补充：

合成音频工作原理

语音克隆现在正处于大爆炸状态，许多公司正在开发工具。像人工智能(网站：https://www.resemble.ai/)和描述(网站：https://www.descript.com/)这样的在线演示程序可以被任何人免费试用。你所要做的就是记录屏幕上出现的短语，然后在几分钟内创建你的声音模型。

你可以感谢人工智能(尤其是深度学习算法)，它将记录的语音与文本进行匹配，以理解构成你的语音的成分音素。然后，它将使用生成的语言构建块来近似你没有听到的单词。

基础技术已经存在了一段时间，但是正如阿莱特指出的，它需要一些帮助。他说：“模仿声音有点像做蛋糕。”

“这很难做到，需要手动调整许多种类方法才能正常工作。”

开发人员需要大量录音数据来获得合格的结果。然后，几年前，大门打开了。事实证明，计算机视觉领域的研究非常重要。科学家们已经开发了生殖对抗网络(GANs)，这是第一次能够根据现有数据进行推断和预测。

艾里特说：“我的模型现在可以把一匹马变成一匹斑马，而不是电脑看到一匹马图片说，‘这是一匹马’。”

"因此，语音合成的快速发展得益于计算机视觉的学术研究."语音克隆最大的创新之一是减少创建语音所需的原始数据量。过去，该系统需要数十甚至数百小时的音频。

但是现在，只有几分钟的内容才能产生胜任的声音。

实际操作

博恒军在“人工智能”和“描述性”上测试了这些工具，并创建了一个语音克隆。描述使用了一个语音克隆引擎，最初叫做Lyrebird，并且效果非常优秀。我们对质量感到震惊。当你听到你的声音时，你知道你从未说过的话可能会令人不安。演讲绝对像机器人一样，但是当你漫不经心地听的时候，很难区分真假。

结尾

有兴趣的朋友可以试试，绝对然你怀疑人生，千万不要用它做电信诈骗哈，很危险的。

变脸视频已经被玩腻了。你能错过假的模仿声音吗？

原创

感兴趣的同学们可以关注一下，保准会大呼快乐！