人工智能

音乐ChatGPT 2.0来了!AI作曲家被踢馆,亲测周杰伦爆款大翻车

字号+作者: 来源:新智元公众号 2024-04-05 10:04 评论(创建话题) 收藏成功收藏本文

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。【新智元导读】200名音乐人联名信抗议的消息刚出,Stability AI的新音乐'...

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。tw2品论天涯网

【新智元导读】200名音乐人联名信抗议的消息刚出,Stability AI的新音乐工具就来了!刚刚发布的Stable Audio2.0,可以创作长达3分钟的音乐,哼哼几句就能给你创作出一段音乐了!不过广大网友和音乐人试用后表示:有点失望……tw2品论天涯网

200多名音乐人联名签公开信抗议Suno的余音还未消,AI音乐又出新工具了——tw2品论天涯网

Stability AI,也下场卷AI音乐了!看来,核心开发人员的出走,并没有减慢它发布产品的步伐。tw2品论天涯网

就在刚刚,Stability AI发布了Stable Audio2.0。tw2品论天涯网

图片tw2品论天涯网

仅仅用一条自然语言指令,它就能以44.1kHz的立体声质量,创作出高质量、结构完整的音乐作品。tw2品论天涯网

而且,每首曲目最长可达3分钟!相比之下,Suno最长可创作2分钟,这方面可是被Stable Audio2完爆了。tw2品论天涯网

并且,Audo2.0的音频到音频功能,目前只有Meta的MusicGen可以做到,连Suno都做不到。tw2品论天涯网

好消息:模型已经在Stable Audio官网上免费开放使用了,并且很快就能通过Stable Audio API提供服务。tw2品论天涯网

图片tw2品论天涯网

顺便,再画个重点:Stable Audio做出来的音乐,是可以商用的!tw2品论天涯网

图片tw2品论天涯网

就是价格着实不便宜:Pro版11.99美元/月、Studio版29.99美元/月、顶配Max版则直接来到了89.99美元/月。tw2品论天涯网

图片tw2品论天涯网

小编亲自上手「爆改」了一波周杰伦的歌。tw2品论天涯网

Prompt如下——tw2品论天涯网

Post-Rock, Guitars, Drum Kit, Bass, Strings, Euphoric, Up-Lifting, Moody, Flowing, Raw, Epic, Sentimental,125BPMtw2品论天涯网

并且输入了一段《夜曲》的旋律,Audio2.0输出的音乐,听起来似乎不太理想。(当然,大概率是因为小编不专业导致的tw2品论天涯网

那哼哼一首试试呢?小编哼了几句《等你下课》,传上去——tw2品论天涯网

Blues,R&Bwoman,singertw2品论天涯网

出来的结果,跟原曲不能说是一模一样,只能说是毫不相干。tw2品论天涯网

AI版等你下课女声,新智元,12秒tw2品论天涯网

小哥一段b-box,身后仿佛一个乐队tw2品论天涯网

消息一出,各位音乐人们立刻冲了!tw2品论天涯网

比如这位国外小哥,自己b-box再加上Audio2.0给配上的音乐,直接一个人干出了一个乐队的效果。tw2品论天涯网

并且,无论是b-box还是完整的歌曲,都是Audio2.0生成的。tw2品论天涯网

图片tw2品论天涯网

这位日本网友,用Audio2.0创作出了一首「东方地灵殿」风格的歌曲。tw2品论天涯网

图片tw2品论天涯网

Shugo Nozaki在试用后点评道:Audio2.0跟Suno不同,它似乎保留了简单的提示,并且把歌曲简化了。tw2品论天涯网

总之,这次的模型不仅可以从文本创作音频,还能从音频创作音频。tw2品论天涯网

旋律、伴奏、独立音轨、音效……没有它不会的。tw2品论天涯网

完整的音轨创作tw2品论天涯网

因为创作时间长达3分钟,Stable Audio2.0能让每首作品都拥有清晰的结构,包括引言、主体和结尾部分,还能加入立体声的音效,让作品更加立体生动。tw2品论天涯网

比如下面这段音乐,结构非常完整,乐曲的风格舒缓、空灵,十分解压。tw2品论天涯网

Abeautifulpiano,新智元,3分钟tw2品论天涯网

A beautiful piano arpeggio grows to a full beautiful orchestral piecetw2品论天涯网

而在下面这段音乐中,由钢琴旋律开始了一段忧郁的乐章,随后的管弦乐乐句,在涌动中把整个乐章推向高潮,最后逐渐回归宁静。tw2品论天涯网

Pianomelody,新智元,3分钟tw2品论天涯网

Piano melody begins a melancholic journey, full orchestral climax, the swells of the orchestral instrumentalstw2品论天涯网

只要给出具体的prompt,就能生成完全符合要求的音乐了,只要脑海里能想象出来,它就能生成。tw2品论天涯网

这感觉,简直就是在元宇宙里的虚拟工作室中玩赛博乐器!tw2品论天涯网

再比如,这首127BPM的Tech House,就融合了琶音器,Rhodes电钢琴的和弦与旋律交织出的美妙旋律。并且还包含有切分节奏的打击乐和拟声打击乐,House风格的重鼓,自然的打击乐效果,以及行走贝斯带来的流动感。tw2品论天涯网

整个曲目在神秘、低调的氛围中展开,让人仿佛置身于探索未知的旅程中。tw2品论天涯网

TechHouse,新智元,3分钟tw2品论天涯网

Tech House, underground UK rave,127BPM, synthesizer arpeggio, beautiful Rhodes piano chords and melodies, epic sweeping string section, syncopated percussion and foley percussion, house kick pattern, drum machine, natural percussion, breaks, walking bass, Mysterious, Mystical, Low-keytw2品论天涯网

以及,这首125BPM的后摇,不仅有精心录制的鼓组和电贝斯,偶尔还穿插着激昂的和声,整体给人一种宏大且高潮迭起的氛围。tw2品论天涯网

PostRock,新智元,3分钟tw2品论天涯网

Post Rock, echoing electric guitars with chorus, well recorded drum-kit, Electric Bass, occasional soaring harmonies, Moving, Epic, Climactic,125BPMtw2品论天涯网

而这首Nu-Disco融合了放克风格的Emotional Pian和浓郁的弦乐四重奏,以及层次丰富的鼓点。此外,G-Funk贝斯和合成器的现代感,完美适合俱乐部氛围。tw2品论天涯网

Nu-Disco,新智元,3分钟tw2品论天涯网

Nu-Disco, funky emotional Piano, lush string quartet, well layered Drum Machine, well-arranged composition, funky G-Funk bass, Synthersizers, Modern, Club-orientated,115BPMtw2品论天涯网

好玩的是,Audio2.0也可能生成有人声的歌词,但遗憾的是,我们并不能自己填词,只能它给什么词,我们用什么词。tw2品论天涯网

这就多少差点意思了……tw2品论天涯网

图片tw2品论天涯网

音频转换tw2品论天涯网

你脑海里有一段旋律,只要把它哼给Stable Audio2.0,它就能给你样本直出!tw2品论天涯网

旋律可以直接变成鼓、低音吉他。tw2品论天涯网

或者来一段b-box,直接就变成了Lofi hip hop box。tw2品论天涯网

声音变化与音效创造tw2品论天涯网

这次的新模型,大幅提升了声音和音效的制作能力。tw2品论天涯网

无论是模拟键盘的轻敲声、人群的欢呼声,还是城市街道的背景嗡嗡声,都能为音乐增添新的层次。tw2品论天涯网

风格转换tw2品论天涯网

另外,如果我们已经有了一个某风格的音频样本,想让它变成另一种风格,只要上传到Audio2,告诉它你想要什么样的,它就自动给你生成了。tw2品论天涯网

无论是音乐的整体风格,还是调整特定部分的基调,Audio2都能为我们独家定制!tw2品论天涯网

从此,艺术家和音乐制作人的创作自由度和想象力,都可以充分释放!tw2品论天涯网

其实,早在2023年9月,公司就已经推出了1.0版本,成为首款商业成功的AI音乐工具。tw2品论天涯网

当时,Stable Audio1.0就被《时代》杂志评为2023年的最佳发明之一。tw2品论天涯网

图片tw2品论天涯网

不过,最近闹得沸沸扬扬的音乐家抗议Suno的事件,也给音乐版权问题敲响了警钟。tw2品论天涯网

Stability AI是怎么解决这个问题的呢?tw2品论天涯网

对此,他们也有对应措施:Stable Audio2.0是专门训练于AudioSparx音乐库的授权数据集上,绝对尊重退出请求,并且表示一定会为创作者提供公平的补偿。tw2品论天涯网

图片tw2品论天涯网

技术原理tw2品论天涯网

为何Stable Audio2.0能创作出结构如此完整的音乐作品?tw2品论天涯网

原因就在于,它采用了一种特殊设计的技术架构。tw2品论天涯网

为此,研究者对系统进行了全面优化,确保它在处理长时间音频时的表现更加出色。tw2品论天涯网

通过一个新型的高效压缩技术,他们将原始的音频数据压缩成了更短的格式,这样就提高了处理效率。tw2品论天涯网

此外,他们还引入了一种先进的「Diffusion Transformer」技术,这种技术比之前的方法更擅长处理连续长音频数据。Stable Diffusion3中也用到了类似技术。tw2品论天涯网

这两大技术的结合,就让模型能够精准地捕捉音乐中的复杂结构,并且重现出来。tw2品论天涯网

图片tw2品论天涯网

自动编码器可以压缩音频并将其重构回原始状态。它能捕捉并复制关键特征,同时过滤掉不太重要的细节,从而生成更连贯的作品。tw2品论天涯网

图片tw2品论天涯网

Diffusion Transformer(DiT)可以逐步将随机噪声细化为结构化数据,识别复杂的模式和关系。结合自动编码器,它获得了处理更长序列的能力,从输入中创建出更深入、更准确的解释。tw2品论天涯网

训练数据tw2品论天涯网

跟1.0版本一样,2.0版本也是基于AudioSparx提供的庞大音频库进行训练的。tw2品论天涯网

这个音频库涵盖了超过80万个文件,内容丰富,包括各类音乐、音效以及单独乐器的音轨,并且附有相关的文本描述。tw2品论天涯网

而AudioSparx平台上的所有艺术家,都有机会选择是否让自己的作品参与到Stable Audio的训练过程中。tw2品论天涯网

而且,为了维护创作者的版权,Stability AI在上传音频时会与Audible Magic合作,采用他们的先进内容识别技术。tw2品论天涯网

这种技术就能实时地识别和匹配音频内容,有效防止侵权,包含每一位创作者的权益。tw2品论天涯网

图片tw2品论天涯网

网友吐槽:没有歌词就没有灵魂啊tw2品论天涯网

虽然宣传地很炸裂,但Audio2.0放出后,也遭到了部分网友吐槽。tw2品论天涯网

最明显的问题就是,它并不能像Suno一样生成歌词。tw2品论天涯网

这就仿佛抽走了一半灵魂。tw2品论天涯网

图片tw2品论天涯网

也有网友吐槽说,自己并不认为这是什么好音乐。它就仿佛一张AI生成的图片,仔细观察就会发现很多错误。tw2品论天涯网

在ta看来,优秀的作曲家应该因为创作出没有错误的好音乐而得到报酬,即使他们比AI更贵。tw2品论天涯网

图片tw2品论天涯网

的确,有很多人表示,它的音乐质量不行,比不上Suno。tw2品论天涯网

图片tw2品论天涯网

甚至很多音乐生成器都比它生成得要好。tw2品论天涯网

图片tw2品论天涯网

「可是,我已经被Suno宠坏了」。tw2品论天涯网

图片tw2品论天涯网

音乐APP创始人试用后:有点失望tw2品论天涯网

这位名叫Ezra的音乐APP创始人在试用Audio2.0后,则详细地记录下自己的体验。tw2品论天涯网

图片tw2品论天涯网

视频地址:https://www.audiocipher.com/post/stable-audio-ai#viewer-85l4b974663tw2品论天涯网

他做了以下几个实验,体验了Audio2.0对各种音乐的生成能力。tw2品论天涯网

手指鼓点tw2品论天涯网

他的第一个实验,是为录制的输入捕捉一个简单的节奏,看看能否用Audio2.0的Drum Solo功能,从提示库中获得更有趣的打击乐概念。tw2品论天涯网

第一次实验的结果令人有些失望。产生的音乐的确有明确的风格和音色转移,但并没有生成他要求的「鼓的独奏」。tw2品论天涯网

他尝试了第二次,提示用的是「鼓和贝斯」,这次,Audio2.0产生了不同的鼓声,两个输出都具有修改后的捕捉音色。tw2品论天涯网

图片tw2品论天涯网

从哼唱旋律到流行乐tw2品论天涯网

这次,小哥录下了自己哼唱的一首十秒的旋律,非常简单。tw2品论天涯网

然后,他将上传的音频波形与Audio2.0的输出进行了比较。tw2品论天涯网

可以看出,输入信号中最响亮的部分跟输出中的类似波形正好对应。tw2品论天涯网

但他表示,风格转移效果其实并不好。输出听起来与自己的嗡嗡声相似,但音色略有不同。tw2品论天涯网

图片tw2品论天涯网

手风琴之歌到吉普赛爵士乐tw2品论天涯网

总的来说,小哥的前两个实验都有点失败。tw2品论天涯网

在第三次实验中,他另辟蹊径,上传了自己写的一首手风琴曲子的30秒录音。tw2品论天涯网

这份录音响铃、清晰,带有和旋和旋律。tw2品论天涯网

而Audio2.0输出的结果,可以算是成功的。tw2品论天涯网

不过提示要求吉普赛爵士乐,带有贝斯和鼓。但他得到的是一把原声爵士吉他,并且听起来有像是木琴的东西。没有贝斯或鼓。tw2品论天涯网

这次,旋律的准确率大概在90%,但出现了原始录音中没有的一些奇怪音符。有时它会丢失主线,或早或晚地跳入旋律。tw2品论天涯网

图片tw2品论天涯网

另一方面,Stable Audio确实在简单的i-iv-V7-i和弦进行上进行了创新,并进行了一些惊喜的重新和声。tw2品论天涯网

所以,如果我们的目标是想出新的和弦编曲,毫无疑问,它会是一个宝藏工具。tw2品论天涯网

参考资料:tw2品论天涯网

https://stability.ai/news/stable-audio-2-0tw2品论天涯网

https://www.audiocipher.com/post/stable-audio-ai#viewer-85l4b974663tw2品论天涯网

https://twitter.com/Gorden_Sun/status/1775516469067166173tw2品论天涯网

https://twitter.com/shugo/status/1775510661499592729tw2品论天涯网

https://twitter.com/dadabots/status/1775522800582762556tw2品论天涯网

https://twitter.com/gufutokuku999/status/1775719731930231018tw2品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]