“音乐版Sora”背后是个什么团队

本报特约记者 任 重 本报驻美国特约记者 刘一然

“人工智能(ai)音乐技术竞赛:udio,音乐制作的另一个chatgpt。”美国《滚石》杂志以此为题报道说,在ai音乐生成器suno引起轰动几周后,一个新的竞争者udio出现了,并得到了技术界和音乐界重量级人士的支持。通过这一音乐生成器“复活”的摇滚巨星汤姆·佩蒂的声音与佩蒂本人几乎无法区分。就在去年,很多专家还认为从文本提示生成完整、高保真歌曲的ai模型不会很快实现,但现在,一场围绕音乐制作模型的技术竞赛已经展开。

出走的“谷歌lyria”

据美通社报道,udio的ai音乐生成器在本月10日一经亮相就引发关注。这款被誉为“音乐版sora”的音乐生成器由去年在纽约创立的udio公司研发。这一公司的使命是把改变世界的产品推向市场,让任何人都能轻松地在瞬间创作出能引发人们情感共鸣的音乐。无论是创作专业曲目,还是为表情包生成有趣的配乐,udio扩展了每个人创作和分享音乐的方式。也因此,udio被业界誉为首个实现歌曲创作自由的公司。

udio主要由一批谷歌前ai工程师和研究人员共同打造。具体来看,5位联合创始人中,除了安德鲁·桑切斯,其他4位都来自谷歌ai研究部门deepmind,他们分别是丁丰宁、康纳·杜尔坎、查理·纳什和雅罗斯拉夫·加宁。尽管这4名研究人员并非业界赫赫有名的“大腕”,但udio一经创立就拿到了包括美国顶级风投机构和instagram首席技术官迈克·克里格等硅谷大佬的投资。

关注人工智能领域的专家艾利克斯在社交媒体上写道,udio是出走的“谷歌lyria”(lyria是谷歌的ai音乐生成模型),并对公众开放。几位前deepmind研究人员在3个月的时间里,筹集了资金,并在自己的机器上进行训练。的确,丁丰宁、纳什、杜尔坎和加宁4人在出走谷歌之前,都曾经为lyria做出重要的研究贡献。在有关lyria的介绍中,deepmind骄傲地表示,“生成音乐技术可以改变未来的音乐创作和使用。我们在这一领域的前沿工作将进一步激发各地艺术家、音乐制作人和粉丝的创造力”。

“一群很务实的人”

在上述创始人当中,丁丰宁在 deepmind工作的时间最长,现在是udio的首席执行官。丁丰宁是美籍华裔,高中毕业于安多佛菲利普斯中学。2011年,丁丰宁进入麻省理工学术项目primes(全称麻省理工学院数学、工程和科学研究项目),进行表示论的研究。在此期间,他以基础代数的论文,获得了素有“小诺贝尔奖”之称的英特尔少年科学天才奖第4名。结束这一项目后,他于2012年进入哈佛大学,并先后获得了数学学士学位和计算机科学硕士学位。2018年7月,丁丰宁正式加入谷歌deepmind团队,成为一名高级研发工程师,负责带领一个30人的团队,从事强化学习和多模态建模工作。在任职的5年间,他参与过lyria模型的开发。2023年11月16日,lyria正式发布,而在当月,丁丰宁已从谷歌离职,并在随后创建了udio。

安德鲁·桑切斯是udio的联合创始人兼运营总监。2022年7月到2023年10月,桑切斯担任搜索引擎yext ai团队的负责人。而在进入科技行业之前,他在哈佛大学读完本科,在牛津大学获得硕士和博士学位,其博士论文主题为“控制论历史”。

相对于丁丰宁和桑切斯的世界名校经历,杜尔坎本科毕业于爱尔兰科克大学,专业是数学,期间在加州大学伯克利分校交换一年。此后,他于英国爱丁堡大学取得硕士(数学)和博士(机器学习)学位。读博士期间,他曾在deepmind实习5个月。毕业之后,杜尔坎正式加入deepmind,成为高级研究人员。2024年1月,他跳槽udio,并成为联合创始人。另一位联合创始人查理·纳什也毕业于爱丁堡大学,本科和研究生专业都与数学相关。2019年,纳什正式加入deepmind,成为一名研究人员,去年正式加入udio。

这一团队中的另外一名学霸加宁来自俄罗斯,他本科和硕士毕业于莫斯科国立大学数学专业。在此之后,加宁远赴加拿大蒙德利尔大学攻读计算机博士学位,并于2019年顺利毕业。在读博期间,他就在deepmind实习了8个月。毕业后一直服务于deepmind,直到去年11月离开,随后参与创办udio。对于这一全新的团队,投资人克里格称赞说:“这些技术型的合伙人是一群很务实的人,项目的进展一直非常快。”

已获得1000万美元种子资金

虽然成立时间很短,但udio公司已获得1000万美元种子资金。丁丰宁强调,“目前没有任何一款产品能与udio的易用性、语音质量和音乐性相媲美,这是对我们所参与人员的最好证明。”

“maginative”网站报道说,udio的与众不同之处在于其用户友好的音乐创作方式。用户只需输入所需音乐类型的相关描述,提供个性化的歌词或主题词等,就可在几秒钟内获得一段音乐素材。目前,suno能根据给定的提示创作出两分钟长的音乐片段。udio提供了更多自定义选项,它可以生成至少30秒的音乐片段,用户可以根据需要扩展长度。

不过,udio的推出也引发一些音乐家的担忧,他们担心ai音乐生成器可能会在未经许可的情况下使用受版权保护的素材来训练自身模型。《滚石》杂志称,尽管udio和suno都未明确承认或否认,但有充足的理由认为这两家公司使用了未经授权的受版权保护音乐进行ai训练。目前,关于受版权保护素材是否可以合法用于ai训练的问题,还在多起法律案件中处于“待定”。▲