Suno引爆音樂圈，與音樂人聊聊AI生成音樂與藝術的隨機數

2024-04-30 19:02:35 娛樂頭條 9534℃

文 | 硅谷101

aigc的風終究是吹到了音樂圈——今年3月，“音樂屆的chatgpt” suno v3粉墨登場，用戶只需要在suno上輸入一句話的提示詞，即可在數秒內生成兩首兩分鐘的完整歌曲，從作詞、作曲、演奏到人聲演唱一氣呵成，大大降低了普通人創作音樂的門檻。

已經習慣了各類“ai歌手翻唱”的聽眾和用戶迅速擁抱了suno，從《宮保雞丁詠嘆調》到《讓我們盪起雙槳》重金屬，從英語、日語、俄語到普通話甚至是粵語，網友們自發上傳的作品包羅萬象，網易雲音樂、qq音樂等平台也迅速上線了sunoai音樂專區，甚至還推出了定期更新的官方推薦歌單。

本期《硅谷101》邀請到了來自音樂和ai音樂生成領域的兩位嘉賓，知名音樂博主“叨叨馮” 馮建鵬，美國哈特福德大學哈特音樂學院打擊樂講師，百老匯全職演奏家和roger chen, meta music tech lead，分享他們對以suno為代表的文生音樂模型的看法，以及ai如何影響音樂產業的未來。

本期亮點：

⭕️為什麼大家感覺是suno是最火的呢？因為他敢最先把文生音樂模型公之於眾

⭕️【測評一】“找不到工作的悲傷搖滾樂”，結果並不悲傷

⭕️能聽但沒有態度，ai只能寫出不憤怒的搖滾樂

⭕️ai寫的歌可以達到業界平均水平，但無法出挑成為頭部作品

⭕️速度是音樂創作最重要的指標之一，為什麼ai寫不出80 bpm的音樂？

⭕️ai寫歌與人類作曲不是一個邏輯，只能從左到右按順序寫，沒有全局觀

⭕️訓練素材足夠全面和豐富，ai可能寫出taylor swift水平的歌曲?

⭕️同樣的音樂，水平不同的演唱者演奏出來也不一樣

⭕️【測評二】英雄主題的交響樂，聽感能得7分，作為乙方它不及格

⭕️suno不能按提示詞生成指定的樂器，它只追求聽上去大概相似

⭕️ai生成音樂是無法抗拒的洪流，但暫時做不到像音樂家一樣寫歌

⭕️【測評三】挑戰規則嚴謹的賦格，suno會表現得更好嗎？

⭕️賦格研究在ai音樂有20年歷史，不過在巴赫的原曲面前還很稚嫩

⭕️音樂技術與心理學：mp3技術是如何被發明出來的？

⭕️音樂的本質是“有組織的聲音”，這是文生音樂大模型的底層邏輯

⭕️最怕無聊？藝術需要跳出人類總結

⭕️創作者的腦洞大開：在音樂里加入隨機數機制

01 讓ai寫一首“失業的悲傷搖滾”，結果並不悲傷

《硅谷101》：除了 suno 以外，最近還有其他的幾款生成音樂的軟件，為什麼感覺是 suno 是最火的呢？

roger：因為 suno 是最膽大的，敢最先發布他們的 ai 生成音樂的模型。其他大公司，比如說 facebook、 google，其實技術是領先的，但有很多的考慮，除了把這個技術發布出去，還要考慮它可能會對社會造成的影響。

尤其音樂，不像文字或者圖像，它的版權問題其實是一個非常敏感的話題。如果你有海量的數據，假設你把世界上所有的歌都用來訓練一個模型，那它肯定是能夠做出一個很好的效果。但是它就會可能面臨很多的法律問題，甚至說你把這整個音樂產業的格局給改變了，蛋糕就這麼大，最後怎麼去分？跟唱片公司、出版商去分錢？這些問題如果沒有想清楚的話，後果可能不堪設想。

《硅谷101》：聽起來很危險。其實不是技術問題，而是版權問題。

那讓我們先聽一聽suno到底實力如何吧。請馮老師給大家做一個現場測試，挑戰一些專業、有難度的音樂生成。我們也可以幫您出一些題，比如寫一首悲傷的搖滾樂，主題是“失業”或者“面試失敗”。

叨叨馮：好的，那我們就讓suno自己寫歌詞，我們在音樂的屬性上做一些限定：sad story of not finding a job, classic rock, 80 bpm, guitar, base, drum, keyboard.

《硅谷101》: 它自己取的這個名字還挺有藝術感。

叨叨馮：我覺得從它生成詞來說，跟我的主題是符合的。但是從音樂的角度來說，我們指定的是“sad story”，我沒有聽出太多的態度。音樂本身是 average level，可以符合我們的要求，至少說有搖滾的意思。

我之前測試了很多中文歌曲，相比較之下，英文歌曲在ai生成時似乎更加成熟一些。ai對英文歌詞的理解以及轉換成音樂的能力似乎更進一步。但在音樂本身的結構上，比如搖滾樂，它通常包含兩個verse（主歌）和隨後的chorus（副歌）。在ai生成的音樂中，從主歌過渡到副歌時，感覺缺少了一種遞進感，一種推動力。也就是說，我們能聽到主歌直接切換到了副歌，缺少了那種在器樂上逐漸構建起來、推向高潮的“build up”（積累感），就像是在達到高潮前需要有一個積累、然後爆發的過程，而ai生成的音樂缺少了這最後的推動。

然而，ai在兩個主歌之間的區分上做得還不錯，生成了一個較好的間奏。在音樂創作中，如果由人類來作曲，通常主歌之間的情緒變化不會太大，但主歌過渡到副歌時，情緒變化會更明顯。

ai創作音樂時，相比真人作曲，最大的問題在於它缺乏一種“態度”。換句話說，它缺少一個創作的動機。如果我是一個真人作曲家，寫歌背後一定有一些具體的原因，比如找不到工作的沮喪，或者對某些事情的憤怒。這些情緒會讓音樂聽起來更具有相應的情感色彩。

目前ai生成的音樂，雖然能滿足基本的文字描述需求，但在作曲和編曲中體現人類情感方面，我的測試結果顯示ai暫時還做不到。音樂之所以成為經典，是因為它承載的人文精神和態度引起了人們的共鳴。儘管有成千上萬首搖滾樂，但只有少數幾首能夠成為傳世之作。ai生成的音樂雖然可以創作出來，但很難在行業中出類拔萃，因為它缺乏那種能引起共鳴的態度。因此，在這個層面上，ai還沒有完全能夠取代人類作曲家的情感。

《硅谷101》: 人類作曲要表達情感和共鳴，有時還需要一些運氣。如果與整個音樂圈的平均水平相比，你認為ai達到了嗎？

叨叨馮：我認為ai的音樂生成能力可以說接近人類的平均水平。如果我們對一萬首歌進行排名，ai的音樂可能處於中間位置，比如第四千到第六千首之間。

但問題在於，在音樂產業中，僅僅達到平均水平可能還不足以脫穎而出。我們能想到的經典搖滾樂，每個人可能只能列舉出100首或200首真正能夠記住並願意付費去聽的作品。而剩下的作品，儘管它們可能高於平均水平，但並不足以在行業中成為頂尖，能夠養活一個專業的音樂人，它是否能在音樂產業中生存下去，還是一個問題。

然而，在某些情況下對音樂的要求並不高。比如我可能需要一段搖滾風格的音樂作為短視頻的背景音樂，不需要它特別出色。在這種情況下，我認為ai生成的音樂已經足夠好了。ai音樂的另一個優勢在於，它可以提供更好的定製服務，尤其是在小成本製作中，如影視配樂。現有的免費版權音樂庫雖然龐大，但要找到完全符合特定主題的音樂並不容易。而ai可以根據具體的提示詞生成更加貼合的音樂，解決了這一問題。但這也僅限於此。

《硅谷101》: 你剛才提到寫了80 bpm，但ai似乎無法理解這個指標。這個指標代表什麼？

叨叨馮：bpm指的是每分鐘80拍，它是音樂速度的一個指標。在音樂中，速度可能是最重要的元素之一。同一首歌，如果把速度放慢兩三倍，原本歡快的歌可能就會聽起來悲傷；反之，加快速度則可能讓悲傷的歌聽起來快樂。電影《大腕》中有一個橋段展示了這一點，哀樂加快後聽起來就像節日音樂。儘管我相信技術上可以實現，但目前測試結果看來，ai在這方面的控制還不成熟。

《硅谷101》：也跟roger請教，為什麼我們覺得生成的音樂不夠悲傷？是因為它不能理解“悲傷”的概念，還是因為它的生成方式做不到？

roger：馮老師剛才提到，如果對一萬首歌進行排序，ai生成的音樂可能排在後7000到8000首，無法達到頂尖水平。這種現象與ai使用的大模型和訓練數據有關。

音樂產業是一個頭部效應明顯的產業，大量的作品其實只能排在尾部。

目前業界使用的數據庫主要是免版權音樂庫，如shutterstock music等，這些庫不僅提供音頻文件，還有豐富的元數據（metadata）。

這些訓練數據通常不是頂尖音樂，如果生成的音樂與免版權音樂庫中的音樂效果相似，從模型學習的角度來看，它就已經達到了目標，這就是為什麼ai生成的音樂可能並不出彩。

另一個問題是，當我們聽ai生成的音樂時，可能會感覺到不同段落之間的過渡很突然，比如從第一節（verse 1）到副歌（chorus）的過渡。這是因為人類作曲通常採用自上而下的邏輯，先確定整體結構，如aaba形式，然後再逐步確定每個部分的和弦進行和配器。

相反，ai模型的生成過程是自左到右的，它沒有全局視角，是一步步生成音樂。因此，有時音樂的變化會顯得很突然。比如，在生成八句歌詞時，如果按照預期每個小節應該唱一句，但ai有時可能會在一個小節中塞入兩句歌詞，導致後續缺少一句。為了解決這個問題，ai可能會強行加入一句歌詞，或者直接通過加入鼓點等手段過渡到下一個部分，這些都是在音樂構建（build up）過程中可能遇到的問題。

另一個問題是關於歌詞的“靈魂”。這不能完全歸咎於suno模型，因為它使用的是文本生成模型。ai生成的文本大多是基於互聯網上大量文章的抽象，而大多數內容本身是沒有“靈魂”的。因此，如何在ai生成的內容中注入情感和靈魂，是一個關鍵的挑戰，也是人類創作者相比ai的一個優勢所在。

至於ai為什麼無法理解bpm，這讓我感到非常驚訝。因為在訓練數據中，每首歌的bpm都是有明確標記的。但ai可能並沒有利用這些信息，或者在當前版本的模型中，bpm並不是一個重要的考量因素。從技術上講，這是一個容易解決的問題。

《硅谷101》：剛才你提到訓練數據的問題，我們用來訓練ai的數據都是來自免費版權音樂庫。如果我們使用taylor swift、queen、coldplay等經典作品作為訓練數據，ai是否也能生成類似的作品？

roger：是的，理論上只要訓練數據足夠優秀，ai就可以做到。但訓練數據不僅僅是音頻本身，還需要適當的描述。如果你只是下載了spotify上的歌曲而不加描述，ai並不知道要學習什麼。你必須告訴ai，比如coldplay的"yellow"是一首什麼樣的歌，這樣下次ai在看到相似的描述時，就知道要生成一首類似"yellow"的歌曲。

《硅谷101》：但如果ai生成了一首非常類似於"yellow"的歌，而且連聲音都模仿了coldplay，這是不是就構成侵權了？

roger：除非未來能和音樂人達成某種和解。音樂人可能會意識到，一旦打開了潘多拉的魔盒，就無法再收回。他們可能只能接受ai生成音樂的現實，只要給予他們適當的報酬。

《硅谷101》：但至少目前來說，使用音樂人的版權作品作為訓練數據還是被禁止的。

roger：是的，現在有一個名為"fairly trained"的組織，專門盯着suno，不斷尋找可能與版權音樂過於相似的作品。如果發現這樣的作品，他們可能會採取法律行動。

02 寫一首英雄主題的交響樂，ai不及格

《硅谷101》: 關於歷史上一些經典交響曲，它們的版權保護情況是怎樣的？我印象中有一個公共領域（public domain）的概念，裡面的曲子是有版權期限的。

roger：是的，一般來說是作曲家去世後70年，作品就會進入公共領域。

叨叨馮：一旦進入公共領域，樂譜本身是沒有版權的，任何人都可以演奏。但如果你錄製了這些樂譜，比如紐約愛樂樂團錄製的，那麼錄音本身是受版權保護的。所以，如果你用這些錄音來訓練ai，可能還是會有版權問題。除非ai能夠使用圖像來訓練聲音，那樣可能會避免版權問題。

《硅谷101》: 這意味着可以使用軟件一些合成數據，比如先讓電腦根據樂譜自動生成聲音，然後再用這些合成的聲音去訓練ai模型，這樣做是可以的。

叨叨馮：從版權角度來說，這是可行的。但我擔心這樣做可能在作曲效果上並不理想。因為即使是現在音樂行業使用的作曲軟件，其模擬聲音的程度也還不能讓人完全滿意。最好的電影音樂等作品，仍然需要真人來錄製。軟件在音色和演奏方法上的細節處理，比如小提琴的不同演奏技巧，目前還達不到完美。如果需要調整每一個樂器的細節，這將非常耗時。

《硅谷101》: 我們剛才討論了那些歷史上非常經典的樂曲，它們在作者去世70年後可以免費使用，這樣的樂曲數據庫大嗎？

roger：對於唱片行業而言，真正的發展是從20世紀50年代開始的。所以按照這個時間線推算，像貓王這樣的藝術家，或者更早的爵士樂先鋒的作品，到2020年可能才會逐漸進入公共領域。儘管可能存在一些早期錄音，但音質很差。因此，可能還需要再等70年，這些音樂才能被廣泛使用。

《硅谷101》: 那我們剛才測試了搖滾樂，現在試試古典樂。

叨叨馮：好的，沒問題。這次我們用器樂（instrumental）來測試，我會嘗試指定一些樂器。我們希望它生成一個以“英雄”為主題的交響樂，指定弦樂、木管、銅管和打擊樂中的定音鼓等樂器，這些都是比較常見的配置。

叨叨馮：我們來聽一聽第二首，因為suno會同時生成兩首，可能差別還挺大的。

叨叨馮：我認為第二首曲子相比第一首，聽起來更具有英雄氣質，同時也更接近交響樂的風格。不過，我個人感覺兩首都有點像電影配樂，和真正的交響音樂相比，可能還欠缺一些。

我想再嘗試一次，指定為古典音樂風格，並且這次我會標註一個更具體的時間範圍，十九世紀，讓我們再次生成一首新的曲子試試看。

叨叨馮：這次指定了時間後，生成的曲子比之前的要好很多。不過，目前還沒有聽到明顯的打擊樂部分，如定音鼓等，主要是以低音弦樂為主，木管和銅管部分似乎混合在一起，音色上不太能分辨出來。

這首曲子在旋律寫作和節奏上比之前的更接近古典音樂，整體上重複性不高，有了一定的動機並逐漸發展。但要達到真正交響樂的形式，還有一定差距。

還有一個問題是，就是我生成的音樂中有些部分還可以，但感覺像是中彩票一樣，有一定的偶然性。雖然有些部分寫作水平不錯，但對於我特別指定的一些樂器的要求，ai並沒有很好地達到。如果我是甲方，而ai是乙方，我會認為乙方沒有完全滿足我的要求。

《硅谷101》: 能否把ai生成的曲子拿出來，自己再添加一些樂器，修改成甲方能接受的音樂水平？

叨叨馮：這是可能的，但工作量會非常大。現在大家經常開玩笑說，用ai生成的音樂來找靈感比較合適：ai寫了一段音樂，可以從中抓取幾個小節，作為一個主題（motive），然後拓展成一首大型交響樂。但要直接用ai生成的作品，目前看來與交響樂的標準還有一定差距。

《硅谷101》: 如果滿分是10分，你給ai生成的音樂打多少分？

叨叨馮：從寫作聽感上來說，可以打6到7分，至少聽起來很像那麼回事了。如果從嚴格的角度來說，比如滿足樂器要求，我可能只給它打5分。

《硅谷101》: 那roger 你怎麼看？它可能miss掉了我們一些要求它使用的樂器。

roger：關於第一首曲子當我們在第二次嘗試中加入了“十九世紀”這樣的標籤後，效果有所改善。這歸結於訓練數據的問題。訓練數據集中有兩類弦樂流派，ai需要理解並匹配相應的標籤來生成音樂。對於古典音樂，有一個專門的流派叫做“master works”，ai必須理解這些術語才能正確生成音樂。如果我們想生成更好的音樂，需要研究訓練數據集的標籤，這可以提供一些靈感。

關於為什麼ai無法精確地復現指定的木管和銅管聲音。ai在生成音樂時，並不是基於單個樂器的模型，而是通過分析大量的錄音，抽象出音樂的基本元素，然後將這些元素組合起來。ai並沒有真正理解什麼是銅管或木管，它只是根據提供的特徵來生成聽起來符合這些特徵的音樂。未來的發展方向可能包括聲源分離技術的進步，這將允許我們把現有的錄音分離成單獨的音軌（stems），然後對每種樂器進行單獨訓練，從而讓ai對每種樂器有更深入的理解。

談到ai為音樂人提供靈感的潛力，目前ai主要支持文字輸入這一種方式。但技術上，同樣的ai架構也完全能夠支持音頻輸入。例如，如果能夠允許用戶輸入一首古典音樂作品，比如莫扎特的曲子，然後通過文字指示ai添加電子鼓等元素，並觀察ai如何融合這些元素生成新的音樂，這可能對音樂創作者來說是一個非常有用的工具。

然而，目前的ai音樂生成工具非常大眾化，它們假設用戶對音樂一無所知，只能通過文字來描述他們想要的音樂風格或元素。這種設計在商業化方面可能是成功的。我相信會有更多公司進入這個細分市場，開發出更專業、更適合音樂人的ai音樂生成工具。

《硅谷101》:馮老師，對於sono這樣的ai音樂產品，我想知道音樂人的普遍態度，是歡迎還是有些抵觸？

叨叨馮：我不能代表所有音樂人，只能表達我個人的看法。我知道有些音樂人，比如紐約的200多位藝術家公開對ai技術表示抵制。ai對我們行業確實帶來了衝擊。我的態度是謹慎樂觀。

首先，我們無法抗拒技術發展的潮流。對於低成本音樂製作，ai也有很大的幫助。但我並不特別恐慌，因為人類音樂有一些獨特的特性，目前的ai還無法完全實現。

ai主要是基於統計學的，而音樂創作需要更深層次的邏輯和文化積澱。除非ai能跨越基於統計學的局限，發展出真正的智能和創造力，否則我不認為它會對整個音樂行業構成威脅。

我認為ai可以成為音樂人的有力工具，幫助提高創作效率。但ai還無法完全取代人類的創造力和情感表達。

03 面對規則嚴謹的賦格，suno會表現得更好嗎？

《硅谷101》：在進行ai生成賦格音樂的測試之前，能否先向大家解釋一下什麼是賦格？然後我們可以播放一首歷史上的標準賦格作品，接着對比聽聽ai生成的賦格。

叨叨馮：賦格是一種複雜的作曲形式，它使用對位法來創作音樂。與現代流行音樂先創作旋律再配上和弦的方式不同，賦格關注的是每個音符或每組音符之間的關係，如何從和諧轉變為不和諧，然後再解決回到和諧。賦格創作有很多嚴格的規則，比如避免使用平行五度和八度等。

在賦格中，通常有一個主題（subject），隨後會有其他聲部對其進行回應（answer）。通過這種方式，以及一些變化技巧，構建出整個作品。賦格的寫作有很多系統性的規則，這些嚴格的規則最終限制了它的進一步發展。音樂家們覺得需要打破這些框架，探索更多創新的可能性，這也是為什麼賦格並沒有從文藝復興時期一直延續到20世紀。

roger：我來分享一個prompt，是巴赫的托卡塔和賦格。這個prompt取自訓練數據集，我想看看如果你輸入這個prompt，ai是否能夠生成聽起來很像巴赫，或者與原曲非常相似的音樂。

叨叨馮：好的，這個提示詞描述的是一個d小調的托卡塔與賦格，需要有陰暗和戲劇性的效果，有管風琴獨奏，整體給人一種嚴肅而有力的感覺。這個提示詞描述的是巴赫非常著名的曲子，可能是大家最熟悉的作品之一。

ai生成的結果已經出來了，配圖是一個教堂，非常貼切。

叨叨馮：我覺得ai生成的音樂在感覺上很像原曲，但實際差距還是比較明顯的。尤其是如果你聽過巴赫的原曲，你會發現開頭的部分非常震撼。這種震撼感是在教堂或廣闊空間中聽時最為強烈的。

叨叨馮：我們只比較一下開頭的部分。巴赫的曲子開頭的震撼感，以及隨後清晰的各個聲部，是ai目前訓練方式難以直接達到的。我最想強調的是，ai生成的曲子在給人的第一印象上與原曲有較大差別。巴赫的曲子在聲部的處理上非常清晰，而ai生成的曲子在這方面則顯得有些模糊。

在賦格音樂中，有兩個聲部互相呼應是非常明顯的特徵。首先是第一個聲部提出一個主題，第二個聲部對這個主題進行重複，形成一種對話的效果。在賦格寫作中，同樣的旋律會在不同的聲部中重複並進行變奏，但即便在變奏過程中，聽眾仍然能夠識別出它們源自同一主題。

然而，在剛才ai生成的音樂中，聲部之間的這種呼應和主題的一致性並不明顯，可以說是相當模糊。對我來說，ai生成的音樂聽起來混雜不清，各個聲部的聲音黏在一起。雖然可以辨認出是管風琴的聲音和兩個聲部的存在，但是它們缺乏清晰的主題性和嚴謹的邏輯性，這是ai目前尚未能夠實現的部分。

《硅谷101》：賦格音樂的邏輯性非常嚴謹，這是否意味着它更適合ai生成？因為ai擅長處理邏輯和公式化的任務。

roger：ai音樂領域的研究確實已經進行了很多年，包括賦格音樂。巴赫的樂譜在網上很容易找到，ai可以利用這些邏輯性強的音樂數據進行建模。在符號層面，ai已經能夠很好地模擬賦格音樂，包括主題和變奏。

但是，目前的端到端生成系統，比如suno，並不是專門用於生成賦格音樂的。ai生成的效果取決於它的訓練數據，如果ai只聽過一首賦格曲目，它可能無法很好地學習。在ai音樂生成中，偏向於邏輯推理的ai系統在處理賦格音樂這類音樂時可能會表現得更好。

04 創作者的腦洞大開：在音樂里加入隨機數機制

《硅谷101》：馮老師作為專業音樂人，您有沒有關於用ai創作音樂的特別問題？

叨叨馮：我們通常認為偉大的作曲家是靠靈感創作，但我認為音樂可能更多地與認知科學有關。所有情緒和思維最終都可以歸結為電信號或化學物質。

為什麼某些音樂讓人感覺歡樂，而另一些讓人感覺悲傷？ai在音樂研究過程中與音樂學科有很多交叉，可以進行很多有趣的研究。

《硅谷101》：馮老師曾提到音樂最怕無聊，ai將來能否克服這個問題，創作出既符合邏輯又出人意料的音樂？

叨叨馮：ai能否無中生有，這是關鍵問題。ai在現有知識的基礎上能做得很好，但音樂的發展需要創新，比如從爵士樂發展出搖滾樂。目前ai的工作原理還是基於統計學，它總結人類已有的音樂來生成新作品。藝術需要在人類知識範圍之外有所突破，而ai目前還做不到這一點。

如果ai能超越現有模型，發展出真正的創新，那將是非常了不起的。雖然這樣的發展還有很長的路要走，但如果ai能演算並發展出全新的音樂形式和風格，我會感到非常興奮，即便這可能帶來一些道德和倫理上的挑戰。

《硅谷101》：從技術角度來看，roger你認為ai是否能夠克服生成音樂中的單調和無聊？

roger：我認為在一定程度上是可能的。音樂就是有組織的聲音，某些音樂流派實際上是對現有元素的重新排列組合。例如，不同的節奏模式可以讓音樂聽起來完全不同，儘管使用的樂器可能相似。這種重新排列組合的方式，包括現在很多流派，如嘻哈音樂的一些分支，都在節奏上進行創新。

如果給ai足夠的數據和計算能力，它理論上能夠生成符合人類審美的、前所未有的音樂組合。但ai可能無法自動篩選出這些創新組合，這就需要人類的審美參與，進行選擇和指導。長期來看，可能會有很多人嘗試各種音樂融合，結合非洲、拉丁等民族元素與電子音樂等，創造出新奇的音樂流派。關鍵在於是否有人能夠捕捉到這些創新，並在人類社會中推廣它們。

隨着人類創作出更多優秀的音樂作品，ai也將獲得更高質量的訓練數據，形成一種人類與ai共同發展的反饋循環。ai將推動人類音樂家創作出更優秀的作品，而ai自身也將在吸收了這些優秀作品後不斷進步。我認為，20年後，無論是人類音樂還是ai音樂，都將達到更高的水平，實現共存和共同進步。

《硅谷101》：這種ai音樂創作的過程，聽起來有點像是朝着通用人工智能（agi）的方向發展。

叨叨馮：我想補充一個可能聽起來很無知的建議。目前的ai在一定程度上遵循我們給它設定的標籤和邏輯，是否可以在ai中引入一個隨機數機制，讓ai生成一些真正的隨機性，比如新的音色或節奏型。這樣可能會產生更新穎、更有趣的結果，而不僅僅是現有元素的重新組合。

這有點像是“上帝擲骰子”的概念。雖然人類作曲家一直在嘗試不同的音樂組合，但加入隨機性可能會帶來真正的創新。我不知道ai是否能夠實現這一點。

roger：實際ai中已經存在一定程度的隨機性。比如，即使輸入相同的prompt，ai也能輸出兩首不同的歌曲。這種隨機性是在生成過程的每一步中引入的，ai在生成每一小段音頻時都會有一定的隨機選擇。

此外，ai模型中有一個叫做“溫度”的參數，可以調整隨機性的程度。如果設置得較低，ai會嚴格按照最大概率選擇下一步；如果設置得較高，ai會更願意探索不那麼大概率的選項，從而可能產生一些驚喜。

目前的隨機性主要是在生成過程中引入的，但未來我們可能會嘗試更多樣的隨機性，比如在人類能理解的語義層面上進行控制。這樣的隨機性可能會帶來更豐富、更有趣的音樂創作結果。

【相關補充信息】

bpm: beats per minute，度量速度的音樂單位，每分鐘多少拍（bpm）表示一個指定的音符，例如四分音符，在一分鐘內出現的次數，bpm的數值越大代表速度越快。

fairly trained：由來自前stability ai、humanistic ai等科技公司高管、知名好萊塢律所和音樂界人士發起的非盈利組織，對涵蓋圖像、音樂和歌麴生成的人工智能模型進行認證，證明他們已申請使用受版權保護的訓練數據的許可。

賦格：為拉丁文“fuga”的譯音，是盛行於巴洛克時期的一種復調音樂體裁，又稱“遁走曲”，是復調音樂中最為複雜而嚴謹的曲體形式。賦格的結構與寫法比較規範。樂曲開始時，以單聲部形式貫穿全曲的主要音樂素材稱為“主題”，與主題形成對位關係的稱為“對題”，之後該主題及對題可以在不同聲部中輪流出現，主題與主題之間也常有過渡性的樂句作音樂的對比。

掩蔽效應：是指由於出現多個同一類別（如聲音、圖像等）的刺激，導致被試不能完整接受全部刺激的信息。具體分為視覺掩蔽效應和聽覺掩蔽效應。其中，聽覺掩蔽效應是指人的耳朵只對最明顯的聲音反應敏感，而對於不敏感的聲音，反應則較為不敏感。例如在聲音的整個頻率譜中，如果某一個頻率段的聲音比較強，則人就對其它頻率段的聲音不敏感了。

標籤：娛樂頭條

上一篇： “韓國首次‘尹李會’效果有限”

下一篇： “大戲看北京”5月文藝資訊 | 鳳凰傳奇開唱“吉祥如意”