当地时间11月25日,芯片巨头英伟达展示了一款用于生成音乐和音频的人工智能模型Fugatto。该模型可以根据文本提示修改声音、产生新的声音。不过英伟达目前没有公开发布Fugatto技术。有业内人士对澎湃科技表示,音频模型是AI的常规应用,英伟达推出这一模型更多得是为了展示AI的能力,从而促进其显卡得销售。
据了解,新模型面向音乐、电影和游戏制作商。它可以改变录音的口音和情绪,将钢琴演奏转换成人声歌唱,具体来讲,Fugatto可以分离歌曲中的人声,添加乐器,将钢琴换成歌剧歌手来改变旋律。英伟达表示,新模型可以创造出“从未听过的声音”,比如可以使小号吠叫或者萨克斯发出猫叫声。
Fugatto建立在英伟达团队此前在语音建模、音频编码和音频理解等领域的工作基础上,完整版本使用25亿参数。新模型根据开源数据在包含32个英伟达H100 Tensor Core GPU的NVIDIA DGX超级计算机系统上进行训练。
英伟达表示,为了构建Fugatto模型,研究人员收集数百万个音频样本的数据集并创建指令,扩展了模型可以执行的任务范围,同时实现了更准确的性能,并在不需要额外数据的情况下完成新任务。在推理过程中,模型使用一种称为ComposableART的技术来组合仅在训练期间单独看到的指令,例如提示词组合可以要求用法国口音讲述悲伤的文字,实现用户对文本指令的精细控制。
“如果我们回想一下过去50年的合成音频,现在的音乐听起来不同了,因为有了电脑和合成器。”英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗(Bryan Catanzaro)说,生成式人工智能将为音乐、电子游戏以及想要创造东西的普通人带来新的能力。
有网友询问何时能使用该模型,但同时也有网友表示担忧,并表示“这是重罪”,“参与这项研究的每个人都应该被关进监狱,原因很明显。不要扰乱艺术、音乐和媒体。”
英伟达表示目前仍在讨论是否以及如何将其公开发布。生成式AI模型的创造者尚未确定如何防止滥用该技术,例如用户生成错误信息或生成受版权保护的角色来侵犯版权。“任何生成技术都会带来一些风险,因为人们可能会用它来生成我们不希望他们使用的东西。”卡坦扎罗表示,因此需要对此保持谨慎,“这就是为何我们没有立即发布这款模型。”
值得注意的是,除英伟达的Fugatto以外,来自Stability AI、OpenAI、谷歌DeepMind等公司也开发了人工智能音频工具,但其他公司都没有声称能够创造出全新的和闻所未闻的声音。一些人工智能初创公司甚至因其音乐创作工具而面临版权诉讼。