AI 被用于生成从图像到文本再到人造蛋白质的所有内容,现在又添加了一个东西:语音。上周,微软的研究人员发表了一篇关于名为 VALL-E 的新型人工智能的论文,该人工智能可以根据仅三秒长的样本准确模拟任何人的声音。 VALL-E 并不是第一个创建的语音模拟器,但它的构建方式与其前身不同,并且可能会带来更大的潜在误用风险。
大多数现有的文本转语音模型使用波形(声波随时间在介质中移动时的图形表示)来创建假声音,调整音调或音高等特征以近似给定的声音。不过,VALL-E 采集了某人的声音样本并将其分解为称为令牌的组件,然后使用这些令牌根据它已经了解的关于该声音的“规则”创建新的声音。如果一个声音特别低沉,或者一个说话者以鼻音的方式发出他们的 A,或者他们比平均水平更单调,这些都是 AI 可以拾取并能够复制的特征。
该模型基于Meta 的 EnCodec技术,该技术刚刚于 10 月发布。该工具使用三部分系统将音频压缩到比 MP3 小 10 倍,而不会降低质量;它的创造者希望它的用途之一是提高通过低带宽连接进行的通话中的语音和音乐质量。
为了训练 VALL-E,它的创建者使用了一个名为LibriLight的音频库,其 60,000 小时的英语演讲主要由有声读物旁白组成。当合成的声音与训练库中的一种声音(其中有超过 7,000 种,所以这应该不会太高)相似时,该模型会产生最佳结果。
除了重现某人的声音,VALL-E 还模拟了三秒样本中的音频环境。通过电话录制的剪辑听起来与亲自录制的不同,如果您在走路或开车时说话,这些场景的独特声学效果会被考虑在内。
一些样本听起来相当逼真,而其他样本仍然非常明显是计算机生成的。但是声音之间存在明显的差异。您可以看出它们是基于具有不同说话风格、音高和语调模式的人。
创建 VALL-E 的团队知道它很容易被坏人利用;从伪造政客或名人的声音片段到使用熟悉的声音通过电话索要金钱或信息,有无数种方法可以利用这项技术。他们明智地避免公开 VALL-E 的代码,并在论文末尾附上一份道德声明(这对阻止任何想将 AI 用于邪恶目的的人没有太大作用)。
类似工具的出现和落入坏人之手可能只是时间问题。研究人员建议,可以通过构建检测模型来衡量音频片段是真实的还是合成的,来减轻像 VALL-E 这样的模型所带来的风险。如果我们需要 AI 来保护我们免受 AI 的侵害,那么如何知道这些技术是否产生了净积极影响?时间会证明一切。
原文: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/