声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:阿虎,授权站长之家转载发布。
谁能想到,2023年香港乐坛最火的一首歌,是80岁歌手尹光和AI唱的。
这首《Dear Myself》荣获“叱咤2023年香港乐坛我最喜欢的歌曲”投票榜第1位,由歌手尹光和他的AI分身共创。很多网友都感动于那句“我声线亦折旧,我把这个使命过继给AI”。
值得一提的是,80岁的尹光还成为了首个注册AI声音专利的乐坛歌手。
2023年,“AI孙燕姿”在B站出道,曾一度让声音克隆变得十分热门。
彼时,我们制作声音克隆视频,还需要单独建立一个AI声库,采集大量的人类声音标本制作数据库,后期还得通过人工调试来模拟人声。
另外,还有一种办法是基于Bert VITS等开源项目,借助大量算力支持,直接文本转语音来还原音色。这对于设备、技术要求都比较高,网上可以找到许多教程,像“手把手教大家用GPT- SoVITS(声音克隆开源项目)”,或是部署“OpenVoice和SVC”。
图片来源:B站UP主“痕继痕迹”的GPT- SoVITS教程
但现在,部分AI工具只需要10秒乃至更少的声音样本,就能完美复刻音色。
2月26日,QQ音乐上线了声音克隆功能,1分钟录制原声,即可生成个人专属音色演唱歌曲,为AI声音赛道添了一把火。
我们见识过AI合成视频、动态图片的技术,而现在合成语音也变得轻而易举。对于创作者来说,AI声音克隆究竟进化到了何种程度?还有哪些热门的AI语音合成工具?如何快速复刻出真实声音?
10秒声音样本,AI就能克隆人声
那么AI克隆人声要怎么做?
“头号AI玩家”体验下来,对于很多创作者来说,如果是进行剧情重制、制作游戏二创视频,或是代替个人原声进行解说,目前AI工具中的音色克隆功能其实完全够用。
借AI声音合成的热度,“头号AI玩家”也生成了一版视频:
头号AI玩家,赞2
能够听出来配音来自于哪些明星和角色吗?
视频画面采用了OpenAI最新发布的Sora生成视频,配音工具则用的是近期流行的ElevenLabs和剪映的AI音色克隆功能,依次复刻了海绵宝宝、OpenAI CEO 奥特曼(Sam Altman)、梅西以及懒羊羊的声音。
以AI音频工具ElevenLabs为例,官方表示只要上传1分钟的声音素材,就能够把任意一段音频,快速生成为中文、葡萄牙语、日语等在内的29种语言,还保留声源的音色特征和情感色彩。
具体包括以下几个步骤:
首先,登陆ElevenLabs官网(https://elevenlabs.io/),先选择“Text to Speech”创建一个新项目,然后选择“目标音色”和“声音设置”来确定输出的音色。ElevenLabs预置了十几种不同口音、语气的角色供用户选择。
如果要使用自定义的声音,我们可以点击“Add Voice”按钮,上传已经录制好的音频。
以视频中奥特曼(Sam Altman)和梅西的声音样本为例,实际操作中我们只上传了10秒的清晰音频。上传完声音素材后,就可以等待ElevenLabs进行“克隆”了。
下面可选进一步编辑,点击“说话者Speaker”重新选择声音,或者在“Voice Setting”中对声音细节进行调整。
如果觉得这个声音和原声源并不像,可以点击“Similarity”进行调整,数值越高就越像源声音。而“Style”可以调整语音风格,包括生成的语速、停顿和语气。
实测下来,“Clarity+Similarity”数值在60%到75%之间,“Style”风格调整成75%至80%之间,“Stablility”调成55%-60%,音频的稳定性效果最好,声音也不会莫名其妙被改变,或者出现生成音频语速过快的情况。
另外,除了调整具体参数之外,还可以给文本添加标点符合来调整语速。比如视频中的梅西片段,我们就在“prefer”后面加了省略号,生成语速会自动减慢,一定程度上会改变表达的语气。
但实话实说,Elevenlabs的中文效果其实并没有非常出彩。如果中文音频素材只有5至10秒,生成的中文效果就更拉垮。我们上传第一版懒羊羊素材时,ElevenLabs的效果就带有明显的译制腔。
国内目前也推出了效果比较好的语音转换工具,免费可用。MiniMax上线应用“海螺问问”,其中的语音通话功能就可以克隆个人声音。
只需下载应用端,真人朗读一段儿歌就可以实现音色转换。
但相比ElevenLabs可以直接上传干音素材,国内的声音克隆工具大多采用朗读收录的方式进行复刻,暂时都不支持音频文件,一定程度上也避免了声音的滥用。
抖音旗下的视频剪辑工具剪映内置了“声音克隆”的AI功能,方便视频创作者一键实现文本到语音的转换。(相关阅读:《剪映的AI革命,字节的AI狂想》)
“头号AI玩家”此前发布的Sora相关视频,里面的视频配音就用到了AI朗读功能。
头号AI玩家,赞8
不过,这些AI音色都不是凭空而成的,大多需要采集真人声音作为声源,再进行深度学习,合成输出相似的语音音色。
还有一些专业向的声音工具,比如大饼AI、出门问问旗下的魔音工坊等,都支持一键改变创作者的音色,让音视频的创作有了延展发挥的空间。
未来AI声音的商业价值
除了丰富内容创作的形式之外,企业也在让声音变得有利可图。
2月13日,ElvenLabs上线了创作者激励机制,配音爱好者可以在ElevenLabs的语音库中分享自己的声音,并在他人使用时获得声音版权的收益。
该计划需要创作者在Voice Lab上传30分钟以上的个人音频,具体定价和使用途径都由创作者自行决定。
就像OpenAI推出GPTs创作者收益计划一样,ElevenLabs鼓励更多专业的配音演员出售他们的声音,用于更大范围的内容创作中。
评论区不少网友和配音演员都抱有乐观的心态,已经开始留言想听到“Martin Shaw”、“Dan Stevens”的AI声音了。
就现阶段的TTS(Text To Speech)技术而言,已经可以保证部分视频内容产出,比如电商带货、解说短视频、朗读录制播客。
对于内容创作者来说,AI语音克隆的应用方式多种多样,游戏、鬼畜、影视解说都有案例可供参考。从AI复活“塌房”UP主,到克隆音色鬼畜搞笑,什么都能玩。
比如,在苦等UP主更新的日子里,粉丝自己动手用AI制作想看的游戏解说。
不仅让游戏主播AI化,网友们还创造了普京分身、YouTube网红等AI平替,想让谁整活儿就让谁变声。
AI普京和普京视频通话;图片来源YouTube
AI工具大大减轻了创作者手动调音的工作量,鬼畜区UP主变得更高产了。就像UP主“女孩为何穿短裙”鸽了好久,幸亏有了AI,他才能产出这等好活。
图片来源:B站“女孩为何穿短裙”
尽管AI技术还没有完全改变人们的工作方式,但是却先改变了网友整活儿的表现形式。
还有一些中小电商商家会用AI来制作口播素材,像抖音平台流行的AI数字人带货,背后都有音色克隆的身影。
更有甚者,利用AI克隆声音后转成多语言版本,让自己的内容出海。随着AI语音合成技术的门槛逐渐降低,多语言分发成为不少创作者的选择。不少人选择以这种方式开拓更多渠道,笼络更多受众,获得更多流量。
从2023年AI生成披头士的最后一曲,到80岁歌手尹光AI共创,乃至助力创作者的高效产出,我们可以看到AI带来的时间、声音以及内容的延续性。
或许AI无法替代任何人事物,至少在未来,有了AI,你的一切都可以打破边界,开拓出新的内容创意和商业价值。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】