三隻羊盧總的錄音AI到底能不能做出來？我的答案是：當然能。

2024-10-10 18:30:12 娛樂頭條 2396℃

大數據文摘受權轉載自數字生命卡茲克

作者：卡茲克

今天凌晨，n多人給我發了一張圖，說警方通報了，問我到底怎麼看三隻羊錄音是不是ai這事。

三隻羊盧總的錄音AI到底能不能做出來？我的答案是：當然能。 - 陸劇吧

還有朋友跟我說，有個號稱國內ai第一人的，之前信誓旦旦的說這錄音必不可能是ai，ai做不出來。所以這個通報背後，會不會背後是有些陰謀論？

我差點都噴了，國內ai第一人？我第一反應是院士也下場參加這種無聊的事了？

然後查了一下...哦.....算了不提了。

我覺得我有必要科普一下，就是ai到底能不能做到三隻羊盧總錄音級別？

我可以明確的給你一個回答，是：能。

先簡單說下前情提要。

三隻羊跟辛巴有一段亂七八糟的風波，反正就是互相掐架，你來我往，好不熱鬧。

然後風波正甚時，三隻羊董事長盧文慶的一段炸裂的錄音被全網瘋傳。

就是這個，我做了刪減，其中一些不雅片段我也全部消音處理了。

內容炸裂不堪入耳，信量極大且內容十分驚人，其中涉及權斗、出軌等等等，總結一下就是盧總自爆和三隻羊所有女主播有過不正當的關係。還點名看不起張一鳴。。。

大概就是這麼個事，然後三隻羊就舉報了，說這錄音是ai合成的。

網上就吵得不可開交了，大部分人最大的理解就是，ai做不出來這種級別的錄音，為什麼？因為那個“國內ai第一人”說的。

這段錄音聽着很真實對吧，有情緒有方言有雜音，所以問題其實就是兩個，這段錄音，到底是不是ai做的？以及，ai到底能不能做到這種級別的錄音？

第一個問題，今天已經有了答案，我永遠無條件相信我們的公安，他們發布的通報，我也相信就是事實，這個沒有任何可以爭議的。所以第一個問題的答案相當明確，那就是ai做的。

那麼第二個問題，最關鍵的來了，ai到底能不能做到這種級別的錄音。

我的答案，當然能。

首先，我需要在這裡科普一下，ai是個大類，而在細分裡面還有很多賽道。

有語言大模型（gpt、claude、豆包等等），有ai繪圖（mj、sd、flux等等），有ai音頻（11labs、svc、gpt-sovtis、suno等等）、有ai視頻（runway、可靈、豆包、pixverse等等）、有ai 3d（tripoai、meshy等等）。

而ai音頻里，又分為ai生成音樂、ai生成音效、聲音克隆。

這個錄音，屬於聲音克隆這個賽道裡面的。

所以不要說ai能做出來這個就比openai比chatgpt還要牛逼，都不是一個賽道的，有啥可比的，就像你說哇這個洗衣機洗衣服真牛逼，比那個冰箱還要牛逼。。。

而聲音克隆，又分為兩種：tts（文本生成語音）、svc（ai換聲）。

tts就是給一段一個人的人聲，只要幾秒幾十秒的素材，就能訓練一個ai模型，然後直接用文字就能生成特定人聲音音頻的語音合成，現在最好的開源項目應該是gpt-sovits。

三隻羊盧總的錄音AI到底能不能做出來？我的答案是：當然能。 - 陸劇吧

svc你就可以通俗的理解成ai換聲，就是ai時代的變聲器。現在ai變聲器領域三個扛把子項目：so-vits-svc、rvc、ddsp。

三隻羊盧總的錄音AI到底能不能做出來？我的答案是：當然能。 - 陸劇吧

ok，現在清楚在ai聲音克隆領域，也有兩種手段來實現聲音偽造了吧。

tts項目，優點是數據要求短，5秒的音頻素材就行，就能克隆你的聲音，後續只要給文本就能生成音頻，成本極低效果極快。但是缺點就是，情緒、停頓、真實度的上限都很低，聽個幾十秒，就能非常輕鬆的聽出來哦這個是ai味道。

而之前，大家覺得ai做不了盧總的音頻偽造，都是先入為主的帶入了tts的思路，覺得一定是用tts做出來的。

非常坦率的講，tts做盧總這種級別的音頻，就我所知道的市面上公開的產品（不包括各大公司內部實驗室的項目），確實有點難。

但是，思路打開，tts做不了這個，但是svc呢？

svc的缺點，就是成本高，需要起步30分鐘的音頻數據集，然後跑幾個小時的煉丹訓練這個人的人聲模型，最後還需要再找一個人錄一段音頻，再用svc換聲，把音色替換過去。

而優點就非常的直白了，這玩意能保留說話人的所有情緒、停頓、語氣、方言等等等等，質量上限約等於無限，只要模型好，你根本聽不出來這到底是不是ai的。

連歌聲都可以無縫換聲，換你個說話聲音，簡直就是個小case了好吧。

去年爆火的ai孫燕姿，就是拿svc做的。

三隻羊盧總的錄音AI到底能不能做出來？我的答案是：當然能。 - 陸劇吧

我也寫過好幾篇關於svc的教程。

也給大家聽一下，我用svc換聲後，用我自己的聲音替換李榮浩的模特的效果。

這是ai直出，我只加了背景音樂。

這就是svc。

所以用svc做盧總的ai音頻偽造，步驟也很簡單。

1. 從網上收集盧總的30分鐘左右說話數據，這個很好找，畢竟他是名人。

2. 用svc或者rvc，把盧總的聲音清洗完，訓練成一個ai模型。

3. 盧總是安慶人，合肥那邊安慶人很多，找一個跟他口音差不多的，把需要合成的音頻自己先念一遍。

4. 最後用svc的ai模型，把念完的音頻替換成他的聲音。

女聲同理。

至此，完畢。

如果你還想聽着真實一點，就用剪映啥的加點風噪環境音，太多了，隨便找，你要環境音，傳統音頻軟件能處理，當然，你也可以拿着帶環境音的數據集進去訓練，雖然我不推薦這麼做。。。

特別是原視頻那個方式，是把錄音發到手機上，再用手機播放，用另一台手機來錄，本身環境音就一堆了，還夾在着哥們背景笑聲，亂七八糟的。這都屬於場外因素了。。。

所以，回到第二個問題，ai能不能做盧總那種的偽造錄音？當然能。

不要把ai想的太神話，也別把ai想的太垃圾，人工智能，很多時候是人工+智能。

現在的tts，解決不了情緒問題，那為啥非要讓ai去搞定情緒？

你人工念完了換音色不就行了？這就是人工+智能。

思路打開，不要太局限。

ai是你的助手，是輔助工具，是讓你用的，不是讓你啥都甩給他當甩手掌柜的。

最後，我想聲明一下。

我寫下這篇文章，不是讓大家去知道這個技術，而去犯法，做一些法外之事，成為法外狂徒。

而是希望做一個關於ai音頻的小小科普，抹平信息差，讓大家知道有這麼個技術，上限就在這，不要覺得ai做不到就可以掉以輕心。而是要知道，現在的ai，可以達到什麼地步，什麼水平。

在人工+智能的加持下，能做到什麼事情。

科技的進步是不可逆的，所有人都是這巨大洪流中的一滴水，只會被裹挾着前行，知道永遠比不知道好，知己知彼，方能百戰不殆。

我們學習很多東西，學習ai，很多時候，是為了保護我們自己。

還有，保護我們的家人。

然後，更好的生活。

租售gpu算力

租：4090/a800/h800/h100

售：現貨h100/h800

特別適合企業級應用

三隻羊盧總的錄音AI到底能不能做出來？我的答案是：當然能。 - 陸劇吧

三隻羊盧總的錄音AI到底能不能做出來？我的答案是：當然能。 - 陸劇吧

點「在看」的人都變好看了哦！

標籤：娛樂頭條

上一篇：《里斯本丸沉沒》將代表中國內地角逐第 97 屆奧斯卡最佳國際影片

下一篇：李小兵任總導演，大理情歌會開幕式在三塔實景地舉辦