Suno引爆音樂圈,與音樂人聊聊AI生成音樂與藝術的隨機數

文 | 硅谷101

aigc的風終究是吹到了音樂圈——今年3月,“音樂屆的chatgpt” suno v3粉墨登場,用戶只需要在suno上輸入一句話的提示詞,即可在數秒內生成兩首兩分鐘的完整歌曲,從作詞、作曲、演奏到人聲演唱一氣呵成,大大降低了普通人創作音樂的門檻。

已經習慣了各類“ai歌手翻唱”的聽眾和用戶迅速擁抱了suno,從《宮保雞丁詠嘆調》到《讓我們盪起雙槳》重金屬,從英語、日語、俄語到普通話甚至是粵語,網友們自發上傳的作品包羅萬象,網易雲音樂、qq音樂等平台也迅速上線了sunoai音樂專區,甚至還推出了定期更新的官方推薦歌單。

本期《硅谷101》邀請到了來自音樂和ai音樂生成領域的兩位嘉賓,知名音樂博主“叨叨馮” 馮建鵬,美國哈特福德大學哈特音樂學院打擊樂講師百老匯全職演奏家roger chen, meta music tech lead,分享他們對以suno為代表的文生音樂模型的看法,以及ai如何影響音樂產業的未來。

本期亮點:

⭕️為什麼大家感覺是suno是最火的呢?因為他敢最先把文生音樂模型公之於眾

⭕️【測評一】“找不到工作的悲傷搖滾樂”,結果並不悲傷

⭕️能聽但沒有態度,ai只能寫出不憤怒的搖滾樂

⭕️ai寫的歌可以達到業界平均水平,但無法出挑成為頭部作品

⭕️速度是音樂創作最重要的指標之一,為什麼ai寫不出80 bpm的音樂?

⭕️ai寫歌與人類作曲不是一個邏輯,只能從左到右按順序寫,沒有全局觀

⭕️訓練素材足夠全面和豐富,ai可能寫出taylor swift水平的歌曲?

⭕️同樣的音樂,水平不同的演唱者演奏出來也不一樣

⭕️【測評二】英雄主題的交響樂,聽感能得7分,作為乙方它不及格

⭕️suno不能按提示詞生成指定的樂器,它只追求聽上去大概相似

⭕️ai生成音樂是無法抗拒的洪流,但暫時做不到像音樂家一樣寫歌

⭕️【測評三】挑戰規則嚴謹的賦格,suno會表現得更好嗎?

⭕️賦格研究在ai音樂有20年歷史,不過在巴赫的原曲面前還很稚嫩

⭕️音樂技術與心理學:mp3技術是如何被發明出來的?

⭕️音樂的本質是“有組織的聲音”,這是文生音樂大模型的底層邏輯

⭕️最怕無聊?藝術需要跳出人類總結

⭕️創作者的腦洞大開:在音樂里加入隨機數機制

01 讓ai寫一首“失業的悲傷搖滾”,結果並不悲傷

《硅谷101》:除了 suno 以外,最近還有其他的幾款生成音樂的軟件,為什麼感覺是 suno 是最火的呢?

roger:因為 suno 是最膽大的,敢最先發布他們的 ai 生成音樂的模型。其他大公司,比如說 facebook、 google, 其實技術是領先的,但有很多的考慮,除了把這個技術發布出去,還要考慮它可能會對社會造成的影響。

尤其音樂,不像文字或者圖像,它的版權問題其實是一個非常敏感的話題。如果你有海量的數據,假設你把世界上所有的歌都用來訓練一個模型,那它肯定是能夠做出一個很好的效果。但是它就會可能面臨很多的法律問題,甚至說你把這整個音樂產業的格局給改變了,蛋糕就這麼大,最後怎麼去分?跟唱片公司、出版商去分錢?這些問題如果沒有想清楚的話,後果可能不堪設想。

《硅谷101》:聽起來很危險。其實不是技術問題,而是版權問題。

那讓我們先聽一聽suno到底實力如何吧。請馮老師給大家做一個現場測試,挑戰一些專業、有難度的音樂生成。我們也可以幫您出一些題,比如寫一首悲傷的搖滾樂,主題是“失業”或者“面試失敗”。

叨叨馮:好的,那我們就讓suno自己寫歌詞,我們在音樂的屬性上做一些限定:sad story of not finding a job, classic rock, 80 bpm, guitar, base, drum, keyboard.

《硅谷101》: 它自己取的這個名字還挺有藝術感。

叨叨馮:我覺得從它生成詞來說,跟我的主題是符合的。但是從音樂的角度來說,我們指定的是“sad story”, 我沒有聽出太多的態度。音樂本身是 average level,可以符合我們的要求,至少說有搖滾的意思。

我之前測試了很多中文歌曲,相比較之下,英文歌曲在ai生成時似乎更加成熟一些。ai對英文歌詞的理解以及轉換成音樂的能力似乎更進一步。但在音樂本身的結構上,比如搖滾樂,它通常包含兩個verse(主歌)和隨後的chorus(副歌)。在ai生成的音樂中,從主歌過渡到副歌時,感覺缺少了一種遞進感,一種推動力。也就是說,我們能聽到主歌直接切換到了副歌,缺少了那種在器樂上逐漸構建起來、推向高潮的“build up”(積累感),就像是在達到高潮前需要有一個積累、然後爆發的過程,而ai生成的音樂缺少了這最後的推動。

然而,ai在兩個主歌之間的區分上做得還不錯,生成了一個較好的間奏。在音樂創作中,如果由人類來作曲,通常主歌之間的情緒變化不會太大,但主歌過渡到副歌時,情緒變化會更明顯。

ai創作音樂時,相比真人作曲,最大的問題在於它缺乏一種“態度”。換句話說,它缺少一個創作的動機。如果我是一個真人作曲家,寫歌背後一定有一些具體的原因,比如找不到工作的沮喪,或者對某些事情的憤怒。這些情緒會讓音樂聽起來更具有相應的情感色彩。

目前ai生成的音樂,雖然能滿足基本的文字描述需求,但在作曲和編曲中體現人類情感方面,我的測試結果顯示ai暫時還做不到。音樂之所以成為經典,是因為它承載的人文精神和態度引起了人們的共鳴。儘管有成千上萬首搖滾樂,但只有少數幾首能夠成為傳世之作。ai生成的音樂雖然可以創作出來,但很難在行業中出類拔萃,因為它缺乏那種能引起共鳴的態度。因此,在這個層面上,ai還沒有完全能夠取代人類作曲家的情感。

《硅谷101》: 人類作曲要表達情感和共鳴,有時還需要一些運氣。如果與整個音樂圈的平均水平相比,你認為ai達到了嗎?

叨叨馮:我認為ai的音樂生成能力可以說接近人類的平均水平。如果我們對一萬首歌進行排名,ai的音樂可能處於中間位置,比如第四千到第六千首之間。

但問題在於,在音樂產業中,僅僅達到平均水平可能還不足以脫穎而出。我們能想到的經典搖滾樂,每個人可能只能列舉出100首或200首真正能夠記住並願意付費去聽的作品。而剩下的作品,儘管它們可能高於平均水平,但並不足以在行業中成為頂尖,能夠養活一個專業的音樂人,它是否能在音樂產業中生存下去,還是一個問題。

然而,在某些情況下對音樂的要求並不高。比如我可能需要一段搖滾風格的音樂作為短視頻的背景音樂,不需要它特別出色。在這種情況下,我認為ai生成的音樂已經足夠好了。ai音樂的另一個優勢在於,它可以提供更好的定製服務,尤其是在小成本製作中,如影視配樂。現有的免費版權音樂庫雖然龐大,但要找到完全符合特定主題的音樂並不容易。而ai可以根據具體的提示詞生成更加貼合的音樂,解決了這一問題。但這也僅限於此。

《硅谷101》: 你剛才提到寫了80 bpm,但ai似乎無法理解這個指標。這個指標代表什麼?

叨叨馮:bpm指的是每分鐘80拍,它是音樂速度的一個指標。在音樂中,速度可能是最重要的元素之一。同一首歌,如果把速度放慢兩三倍,原本歡快的歌可能就會聽起來悲傷;反之,加快速度則可能讓悲傷的歌聽起來快樂。電影《大腕》中有一個橋段展示了這一點,哀樂加快後聽起來就像節日音樂。儘管我相信技術上可以實現,但目前測試結果看來,ai在這方面的控制還不成熟。

《硅谷101》:也跟roger請教,為什麼我們覺得生成的音樂不夠悲傷?是因為它不能理解“悲傷”的概念,還是因為它的生成方式做不到?

roger:馮老師剛才提到,如果對一萬首歌進行排序,ai生成的音樂可能排在後7000到8000首,無法達到頂尖水平。這種現象與ai使用的大模型和訓練數據有關。

音樂產業是一個頭部效應明顯的產業,大量的作品其實只能排在尾部。

目前業界使用的數據庫主要是免版權音樂庫,如shutterstock music等,這些庫不僅提供音頻文件,還有豐富的元數據(metadata)。

這些訓練數據通常不是頂尖音樂,如果生成的音樂與免版權音樂庫中的音樂效果相似,從模型學習的角度來看,它就已經達到了目標,這就是為什麼ai生成的音樂可能並不出彩。

另一個問題是,當我們聽ai生成的音樂時,可能會感覺到不同段落之間的過渡很突然,比如從第一節(verse 1)到副歌(chorus)的過渡。這是因為人類作曲通常採用自上而下的邏輯,先確定整體結構,如aaba形式,然後再逐步確定每個部分的和弦進行和配器。

相反,ai模型的生成過程是自左到右的,它沒有全局視角,是一步步生成音樂。因此,有時音樂的變化會顯得很突然。比如,在生成八句歌詞時,如果按照預期每個小節應該唱一句,但ai有時可能會在一個小節中塞入兩句歌詞,導致後續缺少一句。為了解決這個問題,ai可能會強行加入一句歌詞,或者直接通過加入鼓點等手段過渡到下一個部分,這些都是在音樂構建(build up)過程中可能遇到的問題。

另一個問題是關於歌詞的“靈魂”。這不能完全歸咎於suno模型,因為它使用的是文本生成模型。ai生成的文本大多是基於互聯網上大量文章的抽象,而大多數內容本身是沒有“靈魂”的。因此,如何在ai生成的內容中注入情感和靈魂,是一個關鍵的挑戰,也是人類創作者相比ai的一個優勢所在。

至於ai為什麼無法理解bpm,這讓我感到非常驚訝。因為在訓練數據中,每首歌的bpm都是有明確標記的。但ai可能並沒有利用這些信息,或者在當前版本的模型中,bpm並不是一個重要的考量因素。從技術上講,這是一個容易解決的問題。

《硅谷101》:剛才你提到訓練數據的問題,我們用來訓練ai的數據都是來自免費版權音樂庫。如果我們使用taylor swift、queen、coldplay等經典作品作為訓練數據,ai是否也能生成類似的作品?

roger:是的,理論上只要訓練數據足夠優秀,ai就可以做到。但訓練數據不僅僅是音頻本身,還需要適當的描述。如果你只是下載了spotify上的歌曲而不加描述,ai並不知道要學習什麼。你必須告訴ai,比如coldplay的"yellow"是一首什麼樣的歌,這樣下次ai在看到相似的描述時,就知道要生成一首類似"yellow"的歌曲。

《硅谷101》:但如果ai生成了一首非常類似於"yellow"的歌,而且連聲音都模仿了coldplay,這是不是就構成侵權了?

roger:除非未來能和音樂人達成某種和解。音樂人可能會意識到,一旦打開了潘多拉的魔盒,就無法再收回。他們可能只能接受ai生成音樂的現實,只要給予他們適當的報酬。

《硅谷101》:但至少目前來說,使用音樂人的版權作品作為訓練數據還是被禁止的。

roger:是的,現在有一個名為"fairly trained"的組織,專門盯着suno,不斷尋找可能與版權音樂過於相似的作品。如果發現這樣的作品,他們可能會採取法律行動。

02 寫一首英雄主題的交響樂,ai不及格

《硅谷101》: 關於歷史上一些經典交響曲,它們的版權保護情況是怎樣的?我印象中有一個公共領域(public domain)的概念,裡面的曲子是有版權期限的。

roger:是的,一般來說是作曲家去世後70年,作品就會進入公共領域。

叨叨馮:一旦進入公共領域,樂譜本身是沒有版權的,任何人都可以演奏。但如果你錄製了這些樂譜,比如紐約愛樂樂團錄製的,那麼錄音本身是受版權保護的。所以,如果你用這些錄音來訓練ai,可能還是會有版權問題。除非ai能夠使用圖像來訓練聲音,那樣可能會避免版權問題。

《硅谷101》: 這意味着可以使用軟件一些合成數據,比如先讓電腦根據樂譜自動生成聲音,然後再用這些合成的聲音去訓練ai模型,這樣做是可以的。

叨叨馮:從版權角度來說,這是可行的。但我擔心這樣做可能在作曲效果上並不理想。因為即使是現在音樂行業使用的作曲軟件,其模擬聲音的程度也還不能讓人完全滿意。最好的電影音樂等作品,仍然需要真人來錄製。軟件在音色和演奏方法上的細節處理,比如小提琴的不同演奏技巧,目前還達不到完美。如果需要調整每一個樂器的細節,這將非常耗時。

《硅谷101》: 我們剛才討論了那些歷史上非常經典的樂曲,它們在作者去世70年後可以免費使用,這樣的樂曲數據庫大嗎?

roger:對於唱片行業而言,真正的發展是從20世紀50年代開始的。所以按照這個時間線推算,像貓王這樣的藝術家,或者更早的爵士樂先鋒的作品,到2020年可能才會逐漸進入公共領域。儘管可能存在一些早期錄音,但音質很差。因此,可能還需要再等70年,這些音樂才能被廣泛使用。

《硅谷101》: 那我們剛才測試了搖滾樂,現在試試古典樂。

叨叨馮:好的,沒問題。這次我們用器樂(instrumental)來測試,我會嘗試指定一些樂器。我們希望它生成一個以“英雄”為主題的交響樂,指定弦樂、木管、銅管和打擊樂中的定音鼓等樂器,這些都是比較常見的配置。

叨叨馮:我們來聽一聽第二首,因為suno會同時生成兩首,可能差別還挺大的。

叨叨馮:我認為第二首曲子相比第一首,聽起來更具有英雄氣質,同時也更接近交響樂的風格。不過,我個人感覺兩首都有點像電影配樂,和真正的交響音樂相比,可能還欠缺一些。

我想再嘗試一次,指定為古典音樂風格,並且這次我會標註一個更具體的時間範圍,十九世紀,讓我們再次生成一首新的曲子試試看。

叨叨馮:這次指定了時間後,生成的曲子比之前的要好很多。不過,目前還沒有聽到明顯的打擊樂部分,如定音鼓等,主要是以低音弦樂為主,木管和銅管部分似乎混合在一起,音色上不太能分辨出來。

這首曲子在旋律寫作和節奏上比之前的更接近古典音樂,整體上重複性不高,有了一定的動機並逐漸發展。但要達到真正交響樂的形式,還有一定差距。

還有一個問題是,就是我生成的音樂中有些部分還可以,但感覺像是中彩票一樣,有一定的偶然性。雖然有些部分寫作水平不錯,但對於我特別指定的一些樂器的要求,ai並沒有很好地達到。如果我是甲方,而ai是乙方,我會認為乙方沒有完全滿足我的要求。

《硅谷101》: 能否把ai生成的曲子拿出來,自己再添加一些樂器,修改成甲方能接受的音樂水平?

叨叨馮:這是可能的,但工作量會非常大。現在大家經常開玩笑說,用ai生成的音樂來找靈感比較合適:ai寫了一段音樂,可以從中抓取幾個小節,作為一個主題(motive),然後拓展成一首大型交響樂。但要直接用ai生成的作品,目前看來與交響樂的標準還有一定差距。

《硅谷101》: 如果滿分是10分,你給ai生成的音樂打多少分?

叨叨馮:從寫作聽感上來說,可以打6到7分,至少聽起來很像那麼回事了。如果從嚴格的角度來說,比如滿足樂器要求,我可能只給它打5分。

《硅谷101》: 那roger 你怎麼看?它可能miss掉了我們一些要求它使用的樂器。

roger:關於第一首曲子當我們在第二次嘗試中加入了“十九世紀”這樣的標籤後,效果有所改善。這歸結於訓練數據的問題。訓練數據集中有兩類弦樂流派,ai需要理解並匹配相應的標籤來生成音樂。對於古典音樂,有一個專門的流派叫做“master works”,ai必須理解這些術語才能正確生成音樂。如果我們想生成更好的音樂,需要研究訓練數據集的標籤,這可以提供一些靈感。

關於為什麼ai無法精確地復現指定的木管和銅管聲音。ai在生成音樂時,並不是基於單個樂器的模型,而是通過分析大量的錄音,抽象出音樂的基本元素,然後將這些元素組合起來。ai並沒有真正理解什麼是銅管或木管,它只是根據提供的特徵來生成聽起來符合這些特徵的音樂。未來的發展方向可能包括聲源分離技術的進步,這將允許我們把現有的錄音分離成單獨的音軌(stems),然後對每種樂器進行單獨訓練,從而讓ai對每種樂器有更深入的理解。

談到ai為音樂人提供靈感的潛力,目前ai主要支持文字輸入這一種方式。但技術上,同樣的ai架構也完全能夠支持音頻輸入。例如,如果能夠允許用戶輸入一首古典音樂作品,比如莫扎特的曲子,然後通過文字指示ai添加電子鼓等元素,並觀察ai如何融合這些元素生成新的音樂,這可能對音樂創作者來說是一個非常有用的工具。

然而,目前的ai音樂生成工具非常大眾化,它們假設用戶對音樂一無所知,只能通過文字來描述他們想要的音樂風格或元素。這種設計在商業化方面可能是成功的。我相信會有更多公司進入這個細分市場,開發出更專業、更適合音樂人的ai音樂生成工具。

《硅谷101》:馮老師,對於sono這樣的ai音樂產品,我想知道音樂人的普遍態度,是歡迎還是有些抵觸?

叨叨馮:我不能代表所有音樂人,只能表達我個人的看法。我知道有些音樂人,比如紐約的200多位藝術家公開對ai技術表示抵制。ai對我們行業確實帶來了衝擊。我的態度是謹慎樂觀。

首先,我們無法抗拒技術發展的潮流。對於低成本音樂製作,ai也有很大的幫助。但我並不特別恐慌,因為人類音樂有一些獨特的特性,目前的ai還無法完全實現。

ai主要是基於統計學的,而音樂創作需要更深層次的邏輯和文化積澱。除非ai能跨越基於統計學的局限,發展出真正的智能和創造力,否則我不認為它會對整個音樂行業構成威脅。

我認為ai可以成為音樂人的有力工具,幫助提高創作效率。但ai還無法完全取代人類的創造力和情感表達。

03 面對規則嚴謹的賦格,suno會表現得更好嗎?

《硅谷101》:在進行ai生成賦格音樂的測試之前,能否先向大家解釋一下什麼是賦格?然後我們可以播放一首歷史上的標準賦格作品,接着對比聽聽ai生成的賦格。

叨叨馮:賦格是一種複雜的作曲形式,它使用對位法來創作音樂。與現代流行音樂先創作旋律再配上和弦的方式不同,賦格關注的是每個音符或每組音符之間的關係,如何從和諧轉變為不和諧,然後再解決回到和諧。賦格創作有很多嚴格的規則,比如避免使用平行五度和八度等。

在賦格中,通常有一個主題(subject),隨後會有其他聲部對其進行回應(answer)。通過這種方式,以及一些變化技巧,構建出整個作品。賦格的寫作有很多系統性的規則,這些嚴格的規則最終限制了它的進一步發展。音樂家們覺得需要打破這些框架,探索更多創新的可能性,這也是為什麼賦格並沒有從文藝復興時期一直延續到20世紀。

roger:我來分享一個prompt,是巴赫的托卡塔和賦格。這個prompt取自訓練數據集,我想看看如果你輸入這個prompt,ai是否能夠生成聽起來很像巴赫,或者與原曲非常相似的音樂。

叨叨馮:好的,這個提示詞描述的是一個d小調的托卡塔與賦格,需要有陰暗和戲劇性的效果,有管風琴獨奏,整體給人一種嚴肅而有力的感覺。這個提示詞描述的是巴赫非常著名的曲子,可能是大家最熟悉的作品之一。

ai生成的結果已經出來了,配圖是一個教堂,非常貼切。

叨叨馮:我覺得ai生成的音樂在感覺上很像原曲,但實際差距還是比較明顯的。尤其是如果你聽過巴赫的原曲,你會發現開頭的部分非常震撼。這種震撼感是在教堂或廣闊空間中聽時最為強烈的。

叨叨馮:我們只比較一下開頭的部分。巴赫的曲子開頭的震撼感,以及隨後清晰的各個聲部,是ai目前訓練方式難以直接達到的。我最想強調的是,ai生成的曲子在給人的第一印象上與原曲有較大差別。巴赫的曲子在聲部的處理上非常清晰,而ai生成的曲子在這方面則顯得有些模糊。

在賦格音樂中,有兩個聲部互相呼應是非常明顯的特徵。首先是第一個聲部提出一個主題,第二個聲部對這個主題進行重複,形成一種對話的效果。在賦格寫作中,同樣的旋律會在不同的聲部中重複並進行變奏,但即便在變奏過程中,聽眾仍然能夠識別出它們源自同一主題。

然而,在剛才ai生成的音樂中,聲部之間的這種呼應和主題的一致性並不明顯,可以說是相當模糊。對我來說,ai生成的音樂聽起來混雜不清,各個聲部的聲音黏在一起。雖然可以辨認出是管風琴的聲音和兩個聲部的存在,但是它們缺乏清晰的主題性和嚴謹的邏輯性,這是ai目前尚未能夠實現的部分。

《硅谷101》:賦格音樂的邏輯性非常嚴謹,這是否意味着它更適合ai生成?因為ai擅長處理邏輯和公式化的任務。

roger:ai音樂領域的研究確實已經進行了很多年,包括賦格音樂。巴赫的樂譜在網上很容易找到,ai可以利用這些邏輯性強的音樂數據進行建模。在符號層面,ai已經能夠很好地模擬賦格音樂,包括主題和變奏。

但是,目前的端到端生成系統,比如suno,並不是專門用於生成賦格音樂的。ai生成的效果取決於它的訓練數據,如果ai只聽過一首賦格曲目,它可能無法很好地學習。在ai音樂生成中,偏向於邏輯推理的ai系統在處理賦格音樂這類音樂時可能會表現得更好。

04 創作者的腦洞大開:在音樂里加入隨機數機制

《硅谷101》:馮老師作為專業音樂人,您有沒有關於用ai創作音樂的特別問題?

叨叨馮:我們通常認為偉大的作曲家是靠靈感創作,但我認為音樂可能更多地與認知科學有關。所有情緒和思維最終都可以歸結為電信號或化學物質。

為什麼某些音樂讓人感覺歡樂,而另一些讓人感覺悲傷?ai在音樂研究過程中與音樂學科有很多交叉,可以進行很多有趣的研究。

《硅谷101》:馮老師曾提到音樂最怕無聊,ai將來能否克服這個問題,創作出既符合邏輯又出人意料的音樂?

叨叨馮:ai能否無中生有,這是關鍵問題。ai在現有知識的基礎上能做得很好,但音樂的發展需要創新,比如從爵士樂發展出搖滾樂。目前ai的工作原理還是基於統計學,它總結人類已有的音樂來生成新作品。藝術需要在人類知識範圍之外有所突破,而ai目前還做不到這一點。

如果ai能超越現有模型,發展出真正的創新,那將是非常了不起的。雖然這樣的發展還有很長的路要走,但如果ai能演算並發展出全新的音樂形式和風格,我會感到非常興奮,即便這可能帶來一些道德和倫理上的挑戰。

《硅谷101》:從技術角度來看,roger你認為ai是否能夠克服生成音樂中的單調和無聊?

roger:我認為在一定程度上是可能的。音樂就是有組織的聲音,某些音樂流派實際上是對現有元素的重新排列組合。例如,不同的節奏模式可以讓音樂聽起來完全不同,儘管使用的樂器可能相似。這種重新排列組合的方式,包括現在很多流派,如嘻哈音樂的一些分支,都在節奏上進行創新。

如果給ai足夠的數據和計算能力,它理論上能夠生成符合人類審美的、前所未有的音樂組合。但ai可能無法自動篩選出這些創新組合,這就需要人類的審美參與,進行選擇和指導。長期來看,可能會有很多人嘗試各種音樂融合,結合非洲、拉丁等民族元素與電子音樂等,創造出新奇的音樂流派。關鍵在於是否有人能夠捕捉到這些創新,並在人類社會中推廣它們。

隨着人類創作出更多優秀的音樂作品,ai也將獲得更高質量的訓練數據,形成一種人類與ai共同發展的反饋循環。ai將推動人類音樂家創作出更優秀的作品,而ai自身也將在吸收了這些優秀作品後不斷進步。我認為,20年後,無論是人類音樂還是ai音樂,都將達到更高的水平,實現共存和共同進步。

《硅谷101》:這種ai音樂創作的過程,聽起來有點像是朝着通用人工智能(agi)的方向發展。

叨叨馮:我想補充一個可能聽起來很無知的建議。目前的ai在一定程度上遵循我們給它設定的標籤和邏輯,是否可以在ai中引入一個隨機數機制,讓ai生成一些真正的隨機性,比如新的音色或節奏型。這樣可能會產生更新穎、更有趣的結果,而不僅僅是現有元素的重新組合。

這有點像是“上帝擲骰子”的概念。雖然人類作曲家一直在嘗試不同的音樂組合,但加入隨機性可能會帶來真正的創新。我不知道ai是否能夠實現這一點。

roger:實際ai中已經存在一定程度的隨機性。比如,即使輸入相同的prompt,ai也能輸出兩首不同的歌曲。這種隨機性是在生成過程的每一步中引入的,ai在生成每一小段音頻時都會有一定的隨機選擇。

此外,ai模型中有一個叫做“溫度”的參數,可以調整隨機性的程度。如果設置得較低,ai會嚴格按照最大概率選擇下一步;如果設置得較高,ai會更願意探索不那麼大概率的選項,從而可能產生一些驚喜。

目前的隨機性主要是在生成過程中引入的,但未來我們可能會嘗試更多樣的隨機性,比如在人類能理解的語義層面上進行控制。這樣的隨機性可能會帶來更豐富、更有趣的音樂創作結果。

【相關補充信息】

bpm: beats per minute,度量速度的音樂單位,每分鐘多少拍(bpm)表示一個指定的音符,例如四分音符,在一分鐘內出現的次數,bpm的數值越大代表速度越快。

fairly trained:由來自前stability ai、humanistic ai等科技公司高管、知名好萊塢律所和音樂界人士發起的非盈利組織,對涵蓋圖像、音樂和歌麴生成的人工智能模型進行認證,證明他們已申請使用受版權保護的訓練數據的許可。

賦格:為拉丁文“fuga”的譯音,是盛行於巴洛克時期的一種復調音樂體裁,又稱“遁走曲”,是復調音樂中最為複雜而嚴謹的曲體形式。賦格的結構與寫法比較規範。樂曲開始時,以單聲部形式貫穿全曲的主要音樂素材稱為“主題”,與主題形成對位關係的稱為“對題”,之後該主題及對題可以在不同聲部中輪流出現,主題與主題之間也常有過渡性的樂句作音樂的對比。

掩蔽效應:是指由於出現多個同一類別(如聲音、圖像等)的刺激,導致被試不能完整接受全部刺激的信息。具體分為視覺掩蔽效應和聽覺掩蔽效應。其中,聽覺掩蔽效應是指人的耳朵只對最明顯的聲音反應敏感,而對於不敏感的聲音,反應則較為不敏感。例如在聲音的整個頻率譜中,如果某一個頻率段的聲音比較強,則人就對其它頻率段的聲音不敏感了。