三隻羊盧總的錄音AI到底能不能做出來?我的答案是:當然能。 2024-10-10 18:30:12 娛樂頭條 2396℃ 大數據文摘受權轉載自數字生命卡茲克作者:卡茲克今天凌晨,n多人給我發了一張圖,說警方通報了,問我到底怎麼看三隻羊錄音是不是ai這事。還有朋友跟我說,有個號稱國內ai第一人的,之前信誓旦旦的說這錄音必不可能是ai,ai做不出來。所以這個通報背後,會不會背後是有些陰謀論?我差點都噴了,國內ai第一人?我第一反應是院士也下場參加這種無聊的事了?然後查了一下...哦.....算了不提了。我覺得我有必要科普一下,就是ai到底能不能做到三隻羊盧總錄音級別?我可以明確的給你一個回答,是:能。先簡單說下前情提要。三隻羊跟辛巴有一段亂七八糟的風波,反正就是互相掐架,你來我往,好不熱鬧。然後風波正甚時,三隻羊董事長盧文慶的一段炸裂的錄音被全網瘋傳。就是這個,我做了刪減,其中一些不雅片段我也全部消音處理了。內容炸裂不堪入耳,信量極大且內容十分驚人,其中涉及權斗、出軌等等等,總結一下就是盧總自爆和三隻羊所有女主播有過不正當的關係。還點名看不起張一鳴。。。大概就是這麼個事,然後三隻羊就舉報了,說這錄音是ai合成的。網上就吵得不可開交了,大部分人最大的理解就是,ai做不出來這種級別的錄音,為什麼?因為那個「國內ai第一人」說的。這段錄音聽着很真實對吧,有情緒有方言有雜音,所以問題其實就是兩個,這段錄音,到底是不是ai做的?以及,ai到底能不能做到這種級別的錄音?第一個問題,今天已經有了答案,我永遠無條件相信我們的公安,他們發佈的通報,我也相信就是事實,這個沒有任何可以爭議的。所以第一個問題的答案相當明確,那就是ai做的。那麼第二個問題,最關鍵的來了,ai到底能不能做到這種級別的錄音。我的答案,當然能。首先,我需要在這裡科普一下,ai是個大類,而在細分裏面還有很多賽道。有語言大模型(gpt、claude、豆包等等),有ai繪圖(mj、sd、flux等等),有ai音頻(11labs、svc、gpt-sovtis、suno等等)、有ai視頻(runway、可靈、豆包、pixverse等等)、有ai 3d(tripoai、meshy等等)。而ai音頻里,又分為ai生成音樂、ai生成音效、聲音克隆。這個錄音,屬於聲音克隆這個賽道裏面的。所以不要說ai能做出來這個就比openai比chatgpt還要牛逼,都不是一個賽道的,有啥可比的,就像你說哇這個洗衣機洗衣服真牛逼,比那個冰箱還要牛逼。。。而聲音克隆,又分為兩種:tts(文本生成語音)、svc(ai換聲)。tts就是給一段一個人的人聲,只要幾秒幾十秒的素材,就能訓練一個ai模型,然後直接用文字就能生成特定人聲音音頻的語音合成,現在最好的開源項目應該是gpt-sovits。svc你就可以通俗的理解成ai換聲,就是ai時代的變聲器。現在ai變聲器領域三個扛把子項目:so-vits-svc、rvc、ddsp。ok,現在清楚在ai聲音克隆領域,也有兩種手段來實現聲音偽造了吧。tts項目,優點是數據要求短,5秒的音頻素材就行,就能克隆你的聲音,後續只要給文本就能生成音頻,成本極低效果極快。但是缺點就是,情緒、停頓、真實度的上限都很低,聽個幾十秒,就能非常輕鬆的聽出來哦這個是ai味道。而之前,大家覺得ai做不了盧總的音頻偽造,都是先入為主的帶入了tts的思路,覺得一定是用tts做出來的。非常坦率的講,tts做盧總這種級別的音頻,就我所知道的市面上公開的產品(不包括各大公司內部實驗室的項目),確實有點難。但是,思路打開,tts做不了這個,但是svc呢?svc的缺點,就是成本高,需要起步30分鐘的音頻數據集,然後跑幾個小時的煉丹訓練這個人的人聲模型,最後還需要再找一個人錄一段音頻,再用svc換聲,把音色替換過去。而優點就非常的直白了,這玩意能保留說話人的所有情緒、停頓、語氣、方言等等等等,質量上限約等於無限,只要模型好,你根本聽不出來這到底是不是ai的。連歌聲都可以無縫換聲,換你個說話聲音,簡直就是個小case了好吧。去年爆火的ai孫燕姿,就是拿svc做的。我也寫過好幾篇關於svc的教程。也給大家聽一下,我用svc換聲後,用我自己的聲音替換李榮浩的模特的效果。這是ai直出,我只加了背景音樂。這就是svc。所以用svc做盧總的ai音頻偽造,步驟也很簡單。1. 從網上收集盧總的30分鐘左右說話數據,這個很好找,畢竟他是名人。2. 用svc或者rvc,把盧總的聲音清洗完,訓練成一個ai模型。3. 盧總是安慶人,合肥那邊安慶人很多,找一個跟他口音差不多的,把需要合成的音頻自己先念一遍。4. 最後用svc的ai模型,把念完的音頻替換成他的聲音。女聲同理。至此,完畢。如果你還想聽着真實一點,就用剪映啥的加點風噪環境音,太多了,隨便找,你要環境音,傳統音頻軟件能處理,當然,你也可以拿着帶環境音的數據集進去訓練,雖然我不推薦這麼做。。。特別是原視頻那個方式,是把錄音發到手機上,再用手機播放,用另一台手機來錄,本身環境音就一堆了,還夾在着哥們背景笑聲,亂七八糟的。這都屬於場外因素了。。。所以,回到第二個問題,ai能不能做盧總那種的偽造錄音?當然能。不要把ai想的太神話,也別把ai想的太垃圾,人工智能,很多時候是人工+智能。現在的tts,解決不了情緒問題,那為啥非要讓ai去搞定情緒?你人工念完了換音色不就行了?這就是人工+智能。思路打開,不要太局限。ai是你的助手,是輔助工具,是讓你用的,不是讓你啥都甩給他當甩手掌柜的。最後,我想聲明一下。我寫下這篇文章,不是讓大家去知道這個技術,而去犯法,做一些法外之事,成為法外狂徒。而是希望做一個關於ai音頻的小小科普,抹平信息差,讓大家知道有這麼個技術,上限就在這,不要覺得ai做不到就可以掉以輕心。而是要知道,現在的ai,可以達到什麼地步,什麼水平。在人工+智能的加持下,能做到什麼事情。科技的進步是不可逆的,所有人都是這巨大洪流中的一滴水,只會被裹挾着前行,知道永遠比不知道好,知己知彼,方能百戰不殆。我們學習很多東西,學習ai,很多時候,是為了保護我們自己。還有,保護我們的家人。然後,更好的生活。租售gpu算力租:4090/a800/h800/h100售:現貨h100/h800特別適合企業級應用點「在看」的人都變好看了哦! 標籤: 娛樂頭條 上一篇: 《里斯本丸沉沒》將代表中國內地角逐第 97 屆奧斯卡最佳國際影片 下一篇: 李小兵任總導演,大理情歌會開幕式在三塔實景地舉辦 「娛樂頭條」文章推薦 TVB老戲骨李海生舉行葬禮,成龍、狄龍等致花牌悼念 貓眼娛樂發佈首個長劇本解析AI工具「神筆馬良」:一鍵生成可聽可看的電影動態故事板 首演比例逾90%,首展比例85%,中國上海國際藝術節升級文旅融合流量 胡歌傾情加盟,紅房子醫院原創歷史人物劇《王淑貞》亮相復旦大學相輝堂 新消費觀察丨頭部主播走進大涼山開啟豐收節公益直播 帶貨超1.2億元 「放歌新征程」,第十屆上海合唱節上演 攜手同行迎國慶,四川舉辦殘健融合音樂會 章子怡、賈樟柯力贊,豆瓣9.3分的電影《里斯本丸沉沒》 有多好看? 知名歌手突發耳疾!聽力下降一半,退出《我們的歌》! 浙江前首富,出山救女 「娛樂頭條」視頻推薦 1:55 i15銷售衰退 蘋果CEO庫克半年兩度訪中國大陸|TVBS新聞 6:57 蘋果iPhone 16系列專為AI打造 外媒實測竟當機 日文版明年才開通 中國合作夥伴還沒找到|鏡轉全球|#鏡新聞 3:25 蘋果發表會登場 iPhone 16不漲價.大秀AI功能|華視新聞 20240910 12:21 [蘋果 AI 測評]蘋果 AI 到底什麼水平?iPhone 16 值得買嗎?要買非國行嗎?| 蘋果AI測評 | iPhone 16 AI 功能 1:13 iPhone16正式開賣! 生成式AI功能成亮點|TVBS新聞 @TVBSNEWS01 5:40 真的有AI!😱 iOS 18+蘋果AI懶人包你要懂的5個東西!Apple Cash 很好用啊! 11:10 WWDC2024 懶人包!iPhone 16 跟蘋果的 AI 到底多方便了? 18:43 2024-2026年小紅書起號賺錢最快的5個賽道,海外華人入局小紅書必看 15:14 見了蘋果CEO庫克!問了他16個問題。 10:18 Siri 整合 ChatGPT 到底多厲害?蘋果 AI 元年正式到來:Apple 將用人工智能,徹底改變你的使用習慣?WWDC24 完整懶人包一次看! feat. Innfact