一种名为 VALL-E 的令人毛骨悚然的新人工智能,可以数字克隆你的声音并冒充你。
微软推出了一种人工智能系统,能够根据仅三秒的音频模仿任何人类声音。然后它可以用来将任何书面文本转换为语音,从而使某人可以使用该工具将单词输入您的嘴中。
它甚至旨在重现说话者的“情绪范围”和节奏,使其成为一种超精确的模仿形式。
值得庆幸的是,该人工智能工具尚未向公众开放。 微软表示,这是一种“神经编解码器语言模型”,由拥有微软的 Meta 进行了 60,000 小时的英语语音训练。
“最后生还者”创作者 Naughty Facebook 的视频游戏艺术家德尔解释说:“使用 3 秒的人类语音样本,VALL-E可以从相同的声音生成超高质量的文本到语音。”
“甚至可以再现样本数据的情绪范围和声学环境。”
德尔补充说,这可能会影响有声读物的未来。 “目前,VALL-E 只能阅读,不一定能以配音演员的情感、音调和节奏范围进行表演。然而,大部分有声读物行业都依赖于许多初级配音演员,他们无疑会首当其冲。”
VALL-E 确实在网上激怒了一些人。 推特用户凯文纳什说:“想到诈骗者会接触到这个,真是太可怕了。”
另一位用户克里斯蒂娜·克劳斯 (Christina Kraus) 写道:“除了诈骗和冒充目的之外,这还有什么用呢?为什么我们不把重点放在人工智能真正帮助人类的地方?为什么我们得到人工智能图像生成器和语音模仿?这是我们最不想要的事情。”
但是,该工具可能会在多种情况下证明非常有用。 失去说话能力的人——例如因运动神经元疾病无法说话的已故史蒂芬·霍金——可以使用人工智能系统创建自己声音的复制品,以便继续与世界交流。
分类:科技
发表评论