音樂ChatGPT來襲?這一次,華語樂壇真的要“完蛋了”

文|令狐伯光

去年chatgpt面世以來,生成式ai取代這個行業,那個行業就鬧了一陣,但後來又漸漸平息。今年年初就已經湧現出一批新的ai大模型:文字生成視頻的sora、支持200萬字長文本處理的kimi,以及文生音頻的新星——suno。

它可怕在哪點呢,之前ai生成就是只有片段還不是整首,現在suno音樂生成模型,無論用戶是否擁有樂理知識,只需輸入簡單的提示詞,比如音樂風格、音樂流派、歌詞內容、音色等,等待幾秒就能快速生成帶有歌詞和節拍的2分鐘音樂。

近期suno公司還推出了v3版本,該版本首次能夠生成廣播質量的音樂,並新增了更豐富的音樂風格和流派選項,比如古典音樂、爵士樂、hiphop、電子等新潮曲風。官方表示v4版本已經在開發中,並計劃推出全新功能。

這個消息一出,自然又是什麼“音樂界的chatgpt”“顛覆音樂圈”“音樂人將失業”等等,這些是無數網友和媒體評價又來了。

這個再結合現在本來就非常潰爛的華語樂壇,豈不是華語音樂最先要完蛋了?

ai音樂生成有多可怕?不至於,但確實也不可小覷

我個人還沒有體驗過這個軟件,但是看過一些博主的視頻,視頻里的歌聽下來,基本可以判斷這個ai算法就是套和弦做旋律加離調技巧,練習樣本基本都是歐美曲庫。如果練習樣本擴大到各個民族各種風格的音樂,只能說,靠套和弦寫歌的音樂人真的吃不上飯了,音樂未來估計只容得下一流藝術家。

怎麼講呢,我們可以參考歷史上汽車取代馬車,相機取代繪畫,影視劇取代戲劇等等行業。其實馬車和汽車還不太能對比,因為這個是代步行業沒有太多文化價值,後者更適合一些。你看相機,電影並沒有完全取代舊有行業,但是舊有行業大大降低是肯定的。

同時在玩法上就變得高精專或者抽象,畢竟新行業(電影和流行音樂因為傳播時間短),所以舊有行業的長時間玩法,還有抽象藝術是玩不過傳統行業的。

它並沒有完全取代,但確實佔據了人們的生活,今後流行音樂更難界定抄襲。有了這套工具,獨立音樂人其實可以轉型成文化產品配樂,一個人一台電腦就能解決遊戲,影視,甚至廣播劇漫畫小說的整套配樂。雖然賺的比以前少,但還算有活路。

我是一個業餘音樂愛好者,同時也喜歡喜歡,我們說樂壇爛就是說都是套路,也就是通用和弦。並不指某一首曲子,也不能算得上是一類曲子的通用和弦,這個名詞描述的是一種復調寫作手法,重要特徵為同一個主題(也可能有變化)間隔某一相同節拍疊放。

這裡我能想到最好的例子是莫扎特的“品菊”,這首很明顯就是一個六聲部卡農,寫的十分精巧。在向後發展的過程中,卡農就很少單獨出現了,一般會作為插段或者發展部的開頭。

我十分贊同有人所說“流行音樂是相對簡單”的這個觀點,事實上這和我認知到的知識層面相當一致。更深一層,我認為其根本原因是人類耳朵的構造本身不能識別過於複雜的東西。現在大家覺得ai取代音樂,偏頗在於這個模型只放在流行音樂上,而且是華語樂壇上。

這樣的數據如果想要來概括“音樂”的話,還是有些管中窺豹。因為流行音樂只是音樂的一小部分。像是向古代看,馬勒,斯克里亞賓這些人,向近代看,斯特拉文斯基,施尼特凱這些人,向現代看,潘德列茨基,細川俊夫等等這些人,像這樣的嘗試或者說研究應該能將音樂更多樣的表達出來吧。

ai一出,音樂都成了套路?流行音樂確實越來越“套路了”

流行音樂的前身更像是極簡主義音樂和爵士等風格的雜合體(當然這麼說可能也不能完全概括),它既繼承了一部分前人所探尋的東西也引入了新的觀念。比如說“流量”。這一點讓大眾來決定了流行音樂會走向何方。

但現代派音樂這種高深的東西真的是大眾不能欣賞的嗎?

我認為不是,舉例子就是電音的發展。電音在上世紀三四十年代出現的時候可是最先鋒的一波。到了六十年代像管風琴一樣大的機器出現在伯恩斯坦的指揮台旁邊時他仍是新鮮玩意。但我們早已對它習以為常了。

用這種技術來創造新的合成器音色,或者用這種技術來模擬已有的音色,都是現在常用的東西。除了這些,在和聲的範疇里,在流行音樂中遠功能和聲已然成為了家常便飯,這也是先前古典時期或者更早巴洛克時期沒有的東西。

所以我想,現代派音樂中豐富的技巧會成為流行音樂發展的一部分的。我作為青年也是有想要將我的想法更多的與別人交流的想法的。在這些想法中也不乏批判性的。不論正確與否,這些想法都會是有意義有價值的。

我們所謂的套路和弦,也就是平均歌的評價標準只是歌曲評價標準的一部分,也就是用戶期望違背模型——越貼近平均歌,代表着這首歌更滿足用戶的期望,用戶越能猜到這首歌接下來會唱什麼,這是雙刃劍。

用戶能猜到接下來的旋律,代表這首歌落入俗套,但歌曲不滿足聽眾期望也不是好事。

所以這個ai模型往往和信息熵結合起來,也就是期望違背-信息熵模型。2016年eerola在《expectancy-violation and information-theoretic models of melodic complexity》論文裡面就提出這種模型。

同時“平均歌”本身這個思路也不算新穎,在1984年的時候,simonton於《melodic structure and note transition probabilities: a content analysis of 15,618 classical themes》中也對15,618個古典樂曲主題進行了內容分析,研究了這些主題的旋律結構和音符轉換概率。

matlab中,根據這種內容分析,將現有旋律和15,618個古典樂曲的平均水平進行分析,從而得到一個評分,這個評分可以用於評估歌曲的原創性,也就是說,在80年代的思路下,通過對比“平均歌”,也只能證明歌曲的原創性如何,而不能引申出歌曲的“優劣”、“好壞”。

ai暫時取代不了流行音樂?說了你不信,尤其是華語音樂

原因就是華語樂壇還很落後,平均歌是個很有意思的應用,用快速傅里葉變換分析音樂波形,直接對波形進行處理,所以相當於是把音樂的所有參數都融入進去了。也就是說,用深度學習神經網絡這個黑盒子,進行統一的無差別的識別,因而產生的平均歌理論,是一個從節奏、調式、聽感效果等等各方面的平均。

但音樂對於情感的權重是不一樣的,在神經網絡的黑盒子里,你不清楚節奏、配器、bpm、歌手聲音哪個權重更高。

比如2001年如果孫燕姿的歌曲多,那麼可能孫燕姿的聲音在神經網絡面前就是平均歌的標準,而孫燕姿本身的聲音音色不能影響太多歌曲的情感。所以針對波形的快速傅里葉變換也有缺陷。更好地,還是應該直接使用midi進行分析,但大量的流行音樂midi庫的搭建是件難題。

同時,華語音樂周杰倫一代黃金時代的結束,歸結於音樂的簡單化邏輯上略顯蒼白。華語樂壇的“副歌化”更多地取決於聽眾的心態和平時接觸的流媒體等。ai的誕生一定程度會影響音樂創作,但就如同繪畫一般,不會完全導致音樂創作的結束。

而從音樂的簡單化說起,文中以卡農和弦為例子,講述了大部分歌曲採用同樣的和聲套路、和弦進行,但卻沒考慮到配器、曲式結構等變化。

最後,主要還是華語流行音樂還是非常落後,我們經常有個感覺是音樂是不是像劉慈欣《詩云》一樣,把旋律和套路啥的都寫光了。實際上呢,單獨就歐美音樂風格,包括古典、爵士、搖滾、朋克、r&b、house、britpop、trip-hop、gangsta、rap、synth pop、orchestra、chamber pop、民歌(folk)、bossa nova、classical等等。

華語流行音樂前幾十年着重發展在這幾方面,內地前三十年是地方民歌、民謠、戲曲和紅歌等(以及它們的流行化),崔健開中國搖滾,高曉松等人開內地民謠;香港是粵語民歌,戲曲,流行搖滾,然後就是各種粵語pop。

台灣前三十年和內地音樂重合度很高,70年代民歌運動開台灣新民歌,新民謠,閩南語民謠,再是羅大佑,齊秦的流行搖滾,流行民歌,再到pop,一票音樂人都玩這個。最後就是周杰倫一代開華語rb、說唱、新中國風,再到融合風格。

可能不全面,如果你稍稍懂世界樂壇就會發現,那就是華語音樂風格非常稀少。

這個就像大眾天天周杰倫和黃金時代,但在所謂的音樂愛好者當中,他們是不是經常罵“港台芭樂”“都市情歌”,雖然絕對了點,但側面也證明華語樂壇音樂風格非常稀缺,很多風格獨立音樂人,樂隊確實有人玩,玩得還不錯,但是沒多少人聽。

而如果華語音樂學習歐美音樂風格,並且做得很好的話,很大程度上就和歐美套路歌曲有較大的區別,這就是融合本土化了,日本音樂就是這麼做的。

你要說ai和前人把旋律,編曲和風格都做盡了,你再做也離不開相似和抄襲。

相信我,如果華語觀眾都能聽得出來,那也不會說華語樂壇不行了。簡單點講,同樣的旋律改節奏,同樣的編曲換配器,這個再結合中文和外國唱法不同,有多少普通人分得出來這個?更不用提,後面還有文化語境帶來的不同表達。

只要不明面抄襲,其實任何文化行業都是這麼玩的!