英伟达发布了一款模型，可以生成音乐和音频，英伟达发布音乐音频生成模型

访客音韵和谐 2024-11-26 7 0

当地时间11月25日，芯片巨头英伟达展示了一款用于生成音乐和音频的人工智能模型Fugatto。该模型可以根据文本提示修改声音、产生新的声音。不过英伟达目前没有公开发布Fugatto技术。有业内人士对澎湃科技表示，音频模型是AI的常规应用，英伟达推出这一模型更多得是为了展示AI的能力，从而促进其显卡得销售。

据了解，新模型面向音乐、电影和游戏制作商。它可以改变录音的口音和情绪，将钢琴演奏转换成人声歌唱，具体来讲，Fugatto可以分离歌曲中的人声，添加乐器，将钢琴换成歌剧歌手来改变旋律。英伟达表示，新模型可以创造出“从未听过的声音”，比如可以使小号吠叫或者萨克斯发出猫叫声。

Fugatto建立在英伟达团队此前在语音建模、音频编码和音频理解等领域的工作基础上，完整版本使用25亿参数。新模型根据开源数据在包含32个英伟达H100 Tensor Core GPU的NVIDIA DGX超级计算机系统上进行训练。

英伟达发布了一款模型，可以生成音乐和音频

英伟达表示，为了构建Fugatto模型，研究人员收集数百万个音频样本的数据集并创建指令，扩展了模型可以执行的任务范围，同时实现了更准确的性能，并在不需要额外数据的情况下完成新任务。在推理过程中，模型使用一种称为ComposableART的技术来组合仅在训练期间单独看到的指令，例如提示词组合可以要求用法国口音讲述悲伤的文字，实现用户对文本指令的精细控制。

“如果我们回想一下过去50年的合成音频，现在的音乐听起来不同了，因为有了电脑和合成器。”英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗（Bryan Catanzaro）说，生成式人工智能将为音乐、电子游戏以及想要创造东西的普通人带来新的能力。

有网友询问何时能使用该模型，但同时也有网友表示担忧，并表示“这是重罪”，“参与这项研究的每个人都应该被关进监狱，原因很明显。不要扰乱艺术、音乐和媒体。”

英伟达表示目前仍在讨论是否以及如何将其公开发布。生成式AI模型的创造者尚未确定如何防止滥用该技术，例如用户生成错误信息或生成受版权保护的角色来侵犯版权。“任何生成技术都会带来一些风险，因为人们可能会用它来生成我们不希望他们使用的东西。”卡坦扎罗表示，因此需要对此保持谨慎，“这就是为何我们没有立即发布这款模型。”

值得注意的是，除英伟达的Fugatto以外，来自Stability AI、OpenAI、谷歌DeepMind等公司也开发了人工智能音频工具，但其他公司都没有声称能够创造出全新的和闻所未闻的声音。一些人工智能初创公司甚至因其音乐创作工具而面临版权诉讼。