「音樂版Sora」背後是個什麼團隊

娛樂頭條 2083℃

「音樂版Sora」背後是個什麼團隊 - 陸劇吧

本報特約記者 任 重 本報駐美國特約記者 劉一然

「人工智慧(ai)音樂技術競賽:udio,音樂製作的另一個chatgpt。」美國《滾石》雜誌以此為題報道說,在ai音樂生成器suno引起轟動幾周後,一個新的競爭者udio出現了,並得到了技術界和音樂界重量級人士的支持。通過這一音樂生成器「復活」的搖滾巨星湯姆·佩蒂的聲音與佩蒂本人幾乎無法區分。就在去年,很多專家還認為從文本提示生成完整、高保真歌曲的ai模型不會很快實現,但現在,一場圍繞音樂製作模型的技術競賽已經展開。

出走的「谷歌lyria」

據美通社報道,udio的ai音樂生成器在本月10日一經亮相就引發關注。這款被譽為「音樂版sora」的音樂生成器由去年在紐約創立的udio公司研發。這一公司的使命是把改變世界的產品推向市場,讓任何人都能輕鬆地在瞬間創作出能引發人們情感共鳴的音樂。無論是創作專業曲目,還是為表情包生成有趣的配樂,udio擴展了每個人創作和分享音樂的方式。也因此,udio被業界譽為首個實現歌曲創作自由的公司。

udio主要由一批谷歌前ai工程師和研究人員共同打造。具體來看,5位聯合創始人中,除了安德魯·桑切斯,其他4位都來自谷歌ai研究部門deepmind,他們分別是丁豐寧、康納·杜爾坎、查理·納什和雅羅斯拉夫·加寧。儘管這4名研究人員並非業界赫赫有名的「大腕」,但udio一經創立就拿到了包括美國頂級風投機構和instagram首席技術官邁克·克里格等矽谷大佬的投資。

關注人工智慧領域的專家艾利克斯在社交媒體上寫道,udio是出走的「谷歌lyria」(lyria是谷歌的ai音樂生成模型),並對公眾開放。幾位前deepmind研究人員在3個月的時間裡,籌集了資金,並在自己的機器上進行訓練。的確,丁豐寧、納什、杜爾坎和加寧4人在出走谷歌之前,都曾經為lyria做出重要的研究貢獻。在有關lyria的介紹中,deepmind驕傲地表示,「生成音樂技術可以改變未來的音樂創作和使用。我們在這一領域的前沿工作將進一步激發各地藝術家、音樂製作人和粉絲的創造力」。

「一群很務實的人」

在上述創始人當中,丁豐寧在 deepmind工作的時間最長,現在是udio的首席執行官。丁豐寧是美籍華裔,高中畢業於安多佛菲利普斯中學。2011年,丁豐寧進入麻省理工學術項目primes(全稱麻省理工學院數學、工程和科學研究項目),進行表示論的研究。在此期間,他以基礎代數的論文,獲得了素有「小諾貝爾獎」之稱的英特爾少年科學天才獎第4名。結束這一項目後,他於2012年進入哈佛大學,並先後獲得了數學學士學位和計算機科學碩士學位。2018年7月,丁豐寧正式加入谷歌deepmind團隊,成為一名高級研發工程師,負責帶領一個30人的團隊,從事強化學習和多模態建模工作。在任職的5年間,他參與過lyria模型的開發。2023年11月16日,lyria正式發布,而在當月,丁豐寧已從谷歌離職,並在隨後創建了udio。

安德魯·桑切斯是udio的聯合創始人兼運營總監。2022年7月到2023年10月,桑切斯擔任搜索引擎yext ai團隊的負責人。而在進入科技行業之前,他在哈佛大學讀完本科,在牛津大學獲得碩士和博士學位,其博士論文主題為「控制論歷史」。

相對於丁豐寧和桑切斯的世界名校經歷,杜爾坎本科畢業於愛爾蘭科克大學,專業是數學,期間在加州大學伯克利分校交換一年。此後,他於英國愛丁堡大學取得碩士(數學)和博士(機器學習)學位。讀博士期間,他曾在deepmind實習5個月。畢業之後,杜爾坎正式加入deepmind,成為高級研究人員。2024年1月,他跳槽udio,並成為聯合創始人。另一位聯合創始人查理·納什也畢業於愛丁堡大學,本科和研究生專業都與數學相關。2019年,納什正式加入deepmind,成為一名研究人員,去年正式加入udio。

這一團隊中的另外一名學霸加寧來自俄羅斯,他本科和碩士畢業於莫斯科國立大學數學專業。在此之後,加寧遠赴加拿大蒙德利爾大學攻讀計算機博士學位,並於2019年順利畢業。在讀博期間,他就在deepmind實習了8個月。畢業後一直服務於deepmind,直到去年11月離開,隨後參與創辦udio。對於這一全新的團隊,投資人克里格稱讚說:「這些技術型的合伙人是一群很務實的人,項目的進展一直非常快。」

已獲得1000萬美元種子資金

雖然成立時間很短,但udio公司已獲得1000萬美元種子資金。丁豐寧強調,「目前沒有任何一款產品能與udio的易用性、語音質量和音樂性相媲美,這是對我們所參與人員的最好證明。」

「maginative」網站報道說,udio的與眾不同之處在於其用戶友好的音樂創作方式。用戶只需輸入所需音樂類型的相關描述,提供個性化的歌詞或主題詞等,就可在幾秒鐘內獲得一段音樂素材。目前,suno能根據給定的提示創作出兩分鐘長的音樂片段。udio提供了更多自定義選項,它可以生成至少30秒的音樂片段,用戶可以根據需要擴展長度。

不過,udio的推出也引發一些音樂家的擔憂,他們擔心ai音樂生成器可能會在未經許可的情況下使用受版權保護的素材來訓練自身模型。《滾石》雜誌稱,儘管udio和suno都未明確承認或否認,但有充足的理由認為這兩家公司使用了未經授權的受版權保護音樂進行ai訓練。目前,關於受版權保護素材是否可以合法用於ai訓練的問題,還在多起法律案件中處於「待定」。▲

標籤: 娛樂頭條