三隻羊盧總的錄音AI到底能不能做出來?我的答案是:當然能。

娛樂頭條 2396℃

三隻羊盧總的錄音AI到底能不能做出來?我的答案是:當然能。 - 陸劇吧

大數據文摘受權轉載自數字生命卡茲克

作者:卡茲克


今天凌晨,n多人給我發了一張圖,說警方通報了,問我到底怎麼看三隻羊錄音是不是ai這事。
三隻羊盧總的錄音AI到底能不能做出來?我的答案是:當然能。 - 陸劇吧
還有朋友跟我說,有個號稱國內ai第一人的,之前信誓旦旦的說這錄音必不可能是ai,ai做不出來。所以這個通報背後,會不會背後是有些陰謀論?
我差點都噴了,國內ai第一人?我第一反應是院士也下場參加這種無聊的事了?
然後查了一下...哦.....算了不提了。
我覺得我有必要科普一下,就是ai到底能不能做到三隻羊盧總錄音級別?
我可以明確的給你一個回答,是:能。
先簡單說下前情提要。
三隻羊跟辛巴有一段亂七八糟的風波,反正就是互相掐架,你來我往,好不熱鬧。
然後風波正甚時,三隻羊董事長盧文慶的一段炸裂的錄音被全網瘋傳。
就是這個,我做了刪減,其中一些不雅片段我也全部消音處理了。
內容炸裂不堪入耳,信量極大且內容十分驚人,其中涉及權斗、出軌等等等,總結一下就是盧總自爆和三隻羊所有女主播有過不正當的關係。還點名看不起張一鳴。。。
大概就是這麼個事,然後三隻羊就舉報了,說這錄音是ai合成的。
網上就吵得不可開交了,大部分人最大的理解就是,ai做不出來這種級別的錄音,為什麼?因為那個“國內ai第一人”說的。
這段錄音聽着很真實對吧,有情緒有方言有雜音,所以問題其實就是兩個,這段錄音,到底是不是ai做的?以及,ai到底能不能做到這種級別的錄音?
第一個問題,今天已經有了答案,我永遠無條件相信我們的公安,他們發布的通報,我也相信就是事實,這個沒有任何可以爭議的。所以第一個問題的答案相當明確,那就是ai做的。
那麼第二個問題,最關鍵的來了,ai到底能不能做到這種級別的錄音。
我的答案,當然能。
首先,我需要在這裡科普一下,ai是個大類,而在細分裡面還有很多賽道。
有語言大模型(gpt、claude、豆包等等),有ai繪圖(mj、sd、flux等等),有ai音頻(11labs、svc、gpt-sovtis、suno等等)、有ai視頻(runway、可靈、豆包、pixverse等等)、有ai 3d(tripoai、meshy等等)。
而ai音頻里,又分為ai生成音樂、ai生成音效、聲音克隆。
這個錄音,屬於聲音克隆這個賽道裡面的。
所以不要說ai能做出來這個就比openai比chatgpt還要牛逼,都不是一個賽道的,有啥可比的,就像你說哇這個洗衣機洗衣服真牛逼,比那個冰箱還要牛逼。。。
而聲音克隆,又分為兩種:tts(文本生成語音)、svc(ai換聲)。
tts就是給一段一個人的人聲,只要幾秒幾十秒的素材,就能訓練一個ai模型,然後直接用文字就能生成特定人聲音音頻的語音合成,現在最好的開源項目應該是gpt-sovits。
三隻羊盧總的錄音AI到底能不能做出來?我的答案是:當然能。 - 陸劇吧
svc你就可以通俗的理解成ai換聲,就是ai時代的變聲器。現在ai變聲器領域三個扛把子項目:so-vits-svc、rvc、ddsp。
三隻羊盧總的錄音AI到底能不能做出來?我的答案是:當然能。 - 陸劇吧
ok,現在清楚在ai聲音克隆領域,也有兩種手段來實現聲音偽造了吧。
tts項目,優點是數據要求短,5秒的音頻素材就行,就能克隆你的聲音,後續只要給文本就能生成音頻,成本極低效果極快。但是缺點就是,情緒、停頓、真實度的上限都很低,聽個幾十秒,就能非常輕鬆的聽出來哦這個是ai味道。
而之前,大家覺得ai做不了盧總的音頻偽造,都是先入為主的帶入了tts的思路,覺得一定是用tts做出來的。
非常坦率的講,tts做盧總這種級別的音頻,就我所知道的市面上公開的產品(不包括各大公司內部實驗室的項目),確實有點難。
但是,思路打開,tts做不了這個,但是svc呢?
svc的缺點,就是成本高,需要起步30分鐘的音頻數據集,然後跑幾個小時的煉丹訓練這個人的人聲模型,最後還需要再找一個人錄一段音頻,再用svc換聲,把音色替換過去。
而優點就非常的直白了,這玩意能保留說話人的所有情緒、停頓、語氣、方言等等等等,質量上限約等於無限,只要模型好,你根本聽不出來這到底是不是ai的。
連歌聲都可以無縫換聲,換你個說話聲音,簡直就是個小case了好吧。
去年爆火的ai孫燕姿,就是拿svc做的。
三隻羊盧總的錄音AI到底能不能做出來?我的答案是:當然能。 - 陸劇吧
我也寫過好幾篇關於svc的教程。
也給大家聽一下,我用svc換聲後,用我自己的聲音替換李榮浩的模特的效果。
這是ai直出,我只加了背景音樂。
這就是svc。
所以用svc做盧總的ai音頻偽造,步驟也很簡單。
1. 從網上收集盧總的30分鐘左右說話數據,這個很好找,畢竟他是名人。
2. 用svc或者rvc,把盧總的聲音清洗完,訓練成一個ai模型。
3. 盧總是安慶人,合肥那邊安慶人很多,找一個跟他口音差不多的,把需要合成的音頻自己先念一遍。
4. 最後用svc的ai模型,把念完的音頻替換成他的聲音。
女聲同理。
至此,完畢。
如果你還想聽着真實一點,就用剪映啥的加點風噪環境音,太多了,隨便找,你要環境音,傳統音頻軟件能處理,當然,你也可以拿着帶環境音的數據集進去訓練,雖然我不推薦這麼做。。。
特別是原視頻那個方式,是把錄音發到手機上,再用手機播放,用另一台手機來錄,本身環境音就一堆了,還夾在着哥們背景笑聲,亂七八糟的。這都屬於場外因素了。。。
所以,回到第二個問題,ai能不能做盧總那種的偽造錄音?當然能。
不要把ai想的太神話,也別把ai想的太垃圾,人工智能,很多時候是人工+智能。
現在的tts,解決不了情緒問題,那為啥非要讓ai去搞定情緒?
你人工念完了換音色不就行了?這就是人工+智能。
思路打開,不要太局限。
ai是你的助手,是輔助工具,是讓你用的,不是讓你啥都甩給他當甩手掌柜的。
最後,我想聲明一下。
我寫下這篇文章,不是讓大家去知道這個技術,而去犯法,做一些法外之事,成為法外狂徒。
而是希望做一個關於ai音頻的小小科普,抹平信息差,讓大家知道有這麼個技術,上限就在這,不要覺得ai做不到就可以掉以輕心。而是要知道,現在的ai,可以達到什麼地步,什麼水平。
在人工+智能的加持下,能做到什麼事情。
科技的進步是不可逆的,所有人都是這巨大洪流中的一滴水,只會被裹挾着前行,知道永遠比不知道好,知己知彼,方能百戰不殆。
我們學習很多東西,學習ai,很多時候,是為了保護我們自己。
還有,保護我們的家人。
然後,更好的生活。

三隻羊盧總的錄音AI到底能不能做出來?我的答案是:當然能。 - 陸劇吧


租售gpu算力
租:4090/a800/h800/h100
售:現貨h100/h800

特別適合企業級應用
三隻羊盧總的錄音AI到底能不能做出來?我的答案是:當然能。 - 陸劇吧


三隻羊盧總的錄音AI到底能不能做出來?我的答案是:當然能。 - 陸劇吧
點「在看」的人都變好看了哦!
標籤: 娛樂頭條