三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

2024-10-10 18:30:12 娱乐头条 2396℃

大数据文摘受权转载自数字生命卡兹克

作者：卡兹克

今天凌晨，n多人给我发了一张图，说警方通报了，问我到底怎么看三只羊录音是不是ai这事。

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。 - 陆剧吧

还有朋友跟我说，有个号称国内ai第一人的，之前信誓旦旦的说这录音必不可能是ai，ai做不出来。所以这个通报背后，会不会背后是有些阴谋论？

我差点都喷了，国内ai第一人？我第一反应是院士也下场参加这种无聊的事了？

然后查了一下...哦.....算了不提了。

我觉得我有必要科普一下，就是ai到底能不能做到三只羊卢总录音级别？

我可以明确的给你一个回答，是：能。

先简单说下前情提要。

三只羊跟辛巴有一段乱七八糟的风波，反正就是互相掐架，你来我往，好不热闹。

然后风波正甚时，三只羊董事长卢文庆的一段炸裂的录音被全网疯传。

就是这个，我做了删减，其中一些不雅片段我也全部消音处理了。

内容炸裂不堪入耳，信量极大且内容十分惊人，其中涉及权斗、出轨等等等，总结一下就是卢总自爆和三只羊所有女主播有过不正当的关系。还点名看不起张一鸣。。。

大概就是这么个事，然后三只羊就举报了，说这录音是ai合成的。

网上就吵得不可开交了，大部分人最大的理解就是，ai做不出来这种级别的录音，为什么？因为那个“国内ai第一人”说的。

这段录音听着很真实对吧，有情绪有方言有杂音，所以问题其实就是两个，这段录音，到底是不是ai做的？以及，ai到底能不能做到这种级别的录音？

第一个问题，今天已经有了答案，我永远无条件相信我们的公安，他们发布的通报，我也相信就是事实，这个没有任何可以争议的。所以第一个问题的答案相当明确，那就是ai做的。

那么第二个问题，最关键的来了，ai到底能不能做到这种级别的录音。

我的答案，当然能。

首先，我需要在这里科普一下，ai是个大类，而在细分里面还有很多赛道。

有语言大模型（gpt、claude、豆包等等），有ai绘图（mj、sd、flux等等），有ai音频（11labs、svc、gpt-sovtis、suno等等）、有ai视频（runway、可灵、豆包、pixverse等等）、有ai 3d（tripoai、meshy等等）。

而ai音频里，又分为ai生成音乐、ai生成音效、声音克隆。

这个录音，属于声音克隆这个赛道里面的。

所以不要说ai能做出来这个就比openai比chatgpt还要牛逼，都不是一个赛道的，有啥可比的，就像你说哇这个洗衣机洗衣服真牛逼，比那个冰箱还要牛逼。。。

而声音克隆，又分为两种：tts（文本生成语音）、svc（ai换声）。

tts就是给一段一个人的人声，只要几秒几十秒的素材，就能训练一个ai模型，然后直接用文字就能生成特定人声音音频的语音合成，现在最好的开源项目应该是gpt-sovits。

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。 - 陆剧吧

svc你就可以通俗的理解成ai换声，就是ai时代的变声器。现在ai变声器领域三个扛把子项目：so-vits-svc、rvc、ddsp。

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。 - 陆剧吧

ok，现在清楚在ai声音克隆领域，也有两种手段来实现声音伪造了吧。

tts项目，优点是数据要求短，5秒的音频素材就行，就能克隆你的声音，后续只要给文本就能生成音频，成本极低效果极快。但是缺点就是，情绪、停顿、真实度的上限都很低，听个几十秒，就能非常轻松的听出来哦这个是ai味道。

而之前，大家觉得ai做不了卢总的音频伪造，都是先入为主的带入了tts的思路，觉得一定是用tts做出来的。

非常坦率的讲，tts做卢总这种级别的音频，就我所知道的市面上公开的产品（不包括各大公司内部实验室的项目），确实有点难。

但是，思路打开，tts做不了这个，但是svc呢？

svc的缺点，就是成本高，需要起步30分钟的音频数据集，然后跑几个小时的炼丹训练这个人的人声模型，最后还需要再找一个人录一段音频，再用svc换声，把音色替换过去。

而优点就非常的直白了，这玩意能保留说话人的所有情绪、停顿、语气、方言等等等等，质量上限约等于无限，只要模型好，你根本听不出来这到底是不是ai的。

连歌声都可以无缝换声，换你个说话声音，简直就是个小case了好吧。

去年爆火的ai孙燕姿，就是拿svc做的。

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。 - 陆剧吧

我也写过好几篇关于svc的教程。

也给大家听一下，我用svc换声后，用我自己的声音替换李荣浩的模特的效果。

这是ai直出，我只加了背景音乐。

这就是svc。

所以用svc做卢总的ai音频伪造，步骤也很简单。

1. 从网上收集卢总的30分钟左右说话数据，这个很好找，毕竟他是名人。

2. 用svc或者rvc，把卢总的声音清洗完，训练成一个ai模型。

3. 卢总是安庆人，合肥那边安庆人很多，找一个跟他口音差不多的，把需要合成的音频自己先念一遍。

4. 最后用svc的ai模型，把念完的音频替换成他的声音。

女声同理。

至此，完毕。

如果你还想听着真实一点，就用剪映啥的加点风噪环境音，太多了，随便找，你要环境音，传统音频软件能处理，当然，你也可以拿着带环境音的数据集进去训练，虽然我不推荐这么做。。。

特别是原视频那个方式，是把录音发到手机上，再用手机播放，用另一台手机来录，本身环境音就一堆了，还夹在着哥们背景笑声，乱七八糟的。这都属于场外因素了。。。

所以，回到第二个问题，ai能不能做卢总那种的伪造录音？当然能。

不要把ai想的太神话，也别把ai想的太垃圾，人工智能，很多时候是人工+智能。

现在的tts，解决不了情绪问题，那为啥非要让ai去搞定情绪？

你人工念完了换音色不就行了？这就是人工+智能。

思路打开，不要太局限。

ai是你的助手，是辅助工具，是让你用的，不是让你啥都甩给他当甩手掌柜的。

最后，我想声明一下。

我写下这篇文章，不是让大家去知道这个技术，而去犯法，做一些法外之事，成为法外狂徒。

而是希望做一个关于ai音频的小小科普，抹平信息差，让大家知道有这么个技术，上限就在这，不要觉得ai做不到就可以掉以轻心。而是要知道，现在的ai，可以达到什么地步，什么水平。

在人工+智能的加持下，能做到什么事情。

科技的进步是不可逆的，所有人都是这巨大洪流中的一滴水，只会被裹挟着前行，知道永远比不知道好，知己知彼，方能百战不殆。

我们学习很多东西，学习ai，很多时候，是为了保护我们自己。

还有，保护我们的家人。

然后，更好的生活。

租售gpu算力

租：4090/a800/h800/h100

售：现货h100/h800

特别适合企业级应用

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。 - 陆剧吧

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。 - 陆剧吧

点“在看”的人都变好看了哦！

标签：娱乐头条

上一篇：《里斯本丸沉没》将代表中国内地角逐第 97 届奥斯卡最佳国际影片

下一篇：李小兵任总导演，大理情歌会开幕式在三塔实景地举办