内容详细信息
什么是音频深度假
我们大多数人都看过视频Deepfake,它使用深度学习算法将一个人替换成另一个人的化身。现在,轮到音频了。
音频深度伪造指的是使用“克隆的”声音来产生合成音频,这种声音可能无法与真实的人区分开来。“这就像声音的Photoshop,”like首席执行官Zohaib Ahmed在谈到该公司的声音克隆技术时说,但糟糕的Photoshop操作很容易暴露出来。
我们与之交谈过的一家安全公司表示,人们通常只能猜测音频Deepfake是真是假,准确率约为57%,这仅略高于抛硬币来猜测正反两方面。此外,由于许多语音录音都是低质量的电话通话(或嘈杂场所的录音),这可能会使音频深度伪造更加难以区分。
声音质量越差,辨别这些假声音就越困难。
声音成功故事
事实上,合成音频有巨大的市场需求。根据艾哈迈德,的说法,“投资回报非常高。”
在游戏中尤其如此。在过去,语音是一个不能在游戏中按需创建的组件。即使在实时呈现电影质量场景的交互式标题中,与非播放角色的语言交互也基本上是静态的。
但是现在,科技已经赶上了。该工作室有潜力克隆演员的声音,并使用文本转换为语音引擎,这样角色就可以实时说任何话。
在广告、技术和客户支持方面有更多的传统用途。在这里,重要的是发出一个真实的人类声音,并在没有人类输入的情况下做出个人的和上下文相关的响应。
声音克隆公司也对医学应用感到兴奋。当然,言语替代在医学上并不新鲜。斯蒂芬霍金在1985年失去自己的演讲后,他使用了机器人合成的演讲。然而,现代语音克隆有望带来更好的结果效果。
CereProc(网站:https://www.cereproc.com/en/home)发布了一个网页,允许人们输入信息,然后前总统乔治布什的声音出现了。
CereProc首席科学官马修埃莱特(Matthew Aylett)说:“埃伯特看到后想,‘如果他们能模仿布什的声音,他们应该也能模仿我的声音’。”然后,埃伯特要求该公司创造一个替代的声音,这是通过处理一个大的声音记录库实现的。"
艾利特说:“这可能是人类第一次这样做。这是一个真正的成功。”
近年来,许多公司(包括CereProc)与肌萎缩侧索硬化症协会合作,为肌萎缩侧索硬化症患者提供全面的声音,如霍金
补充:
合成音频工作原理
语音克隆现在正处于大爆炸状态,许多公司正在开发工具。像人工智能(网站:https://www.resemble.ai/)和描述(网站:https://www.descript.com/)这样的在线演示程序可以被任何人免费试用。你所要做的就是记录屏幕上出现的短语,然后在几分钟内创建你的声音模型。
你可以感谢人工智能(尤其是深度学习算法),它将记录的语音与文本进行匹配,以理解构成你的语音的成分音素。然后,它将使用生成的语言构建块来近似你没有听到的单词。
基础技术已经存在了一段时间,但是正如阿莱特指出的,它需要一些帮助。他说:“模仿声音有点像做蛋糕。”
“这很难做到,需要手动调整许多种类方法才能正常工作。”
开发人员需要大量录音数据来获得合格的结果。然后,几年前,大门打开了。事实证明,计算机视觉领域的研究非常重要。科学家们已经开发了生殖对抗网络(GANs),这是第一次能够根据现有数据进行推断和预测。
艾里特说:“我的模型现在可以把一匹马变成一匹斑马,而不是电脑看到一匹马图片说,‘这是一匹马’。”
"因此,语音合成的快速发展得益于计算机视觉的学术研究."语音克隆最大的创新之一是减少创建语音所需的原始数据量。过去,该系统需要数十甚至数百小时的音频。
但是现在,只有几分钟的内容才能产生胜任的声音。
实际操作
博恒军在“人工智能”和“描述性”上测试了这些工具,并创建了一个语音克隆。描述使用了一个语音克隆引擎,最初叫做Lyrebird,并且效果非常优秀。我们对质量感到震惊。当你听到你的声音时,你知道你从未说过的话可能会令人不安。演讲绝对像机器人一样,但是当你漫不经心地听的时候,很难区分真假。
结尾
有兴趣的朋友可以试试,绝对然你怀疑人生,千万不要用它做电信诈骗哈,很危险的。
变脸视频已经被玩腻了。你能错过假的模仿声音吗?
原创
感兴趣的同学们可以关注一下,保准会大呼快乐!