音乐领域的“ChatGPT”要来了吗?

界面新闻记者 | 于浩

界面新闻编辑 | 文姝琪

输入音乐流派风格、内容主题,只需几秒钟内就可生成2分钟音乐......生成式人工智能再次在音乐领域为人们带来惊喜。 

近日,人工智能初创企业suno对外发布了suno模型v3版本。据介绍,在v2版本基础上,v3版本增加了更多音乐风格和流派,同时也加强了对提示词的依从性,减少了幻觉问题。

目前suno v3支持自定义模式,用户可以在自定义模式中通过输入歌词、标题、音乐风格、勾选是否纯器乐来生成音乐作品;也可以在非自定义模式下以更为简单的提示词生成作品。

界面新闻以“a jazz song that describes happy love(一首描述幸福恋爱的爵士乐歌曲)”作为提示词输入suno v3,以下为模型生成的音乐作品链接及歌词:(歌词翻译由kimi智能助手完成)

https://app.suno.ai/song/c066c053-e038-493b-a48d-095a9891b1cb

the moon is shining bright above

月光皎洁,高悬天际

as we sway to the rhythm of love

我们随着爱的旋律轻轻摇摆

your touch, it sets my heart on fire

你的轻抚,如火点燃我的心房

in this moment, nothing could be higher

此刻情深,无物能及

the sweet melody fills the air

甜美旋律,充盈夜空

as we dance without a care

我们翩翩起舞,无忧无虑

your eyes, they sparkle like stars

你的双眸,如繁星般璀璨

in this jazz embrace, we're taking it far

在爵士的怀抱里,我们遨游至远方

oh, this love is like a moonlit serenade

哦,此情此景,宛如月下小夜曲

a harmony that will never fade

和谐旋律,永不消逝

in your arms, i find my solace and peace

在你怀中,我寻得安宁与宁静

together, we create a love masterpiece

携手共绘,爱的绝世佳作

据滚石杂志报道,suno创业团队仅成立不到两年时间,由mikey shulman、keenan freyberg、georg kucsko和martin camacho联合创立。四人都是机器学习方面的专家,此前曾一同就职于人工智能企业kensho。其中,shulman和camacho也是音乐家,常常一同即兴演出。

在技术路径方面,与chatgpt等大语言模型类似,suno将人类语言以token为单位进行分解,吸收其用法、结构之后再根据需求进行重新输出。但与可以被轻易拆分的纯文本不同,音频往往以连续信号的形式出现,这使得ai对音乐的理解和生成变得更加困难。

相似的训练思路使得suno可能面临openai所遭受的版权诉讼。2023年12月,《纽约时报》曾以侵犯版权为由起诉openai和微软,要求两家公司销毁任何使用到《纽约时报》版权材料的聊天机器人模型和训练数据。suno创始团队并未透露模型的训练数据,只透露了模型会通过学习语音录音来了解人类声音的特质。

suno v3发布后,suno创始团队于社交媒体上发文表示,目前suno模型仍处于早期阶段,未来还将沿着质量、可控和速度上进行改进,并透露v4正在开发中。同时,为了防止模型作品被滥用,suno还开发了专有的无声水印技术,用以检测歌曲是否是使用suno创作的。

在人工智能音乐创作方面,如谷歌、stability ai都曾发布过类似产品,谷歌的dream track支持用户使用名人声音制作自己的歌曲,stability ai所发布的stable audio ai则可以生成45秒左右的曲目。

目前suno只有12名左右员工,但在上述报道中创始团队表示他们计划扩大规模。与此同时,他们也表示目前suno模型还没接近完美,还有大量的工作要去做。其中一个方向是,suno希望能以更直观的交互方式来替换文本转音乐的方案,如根据用户自己的演唱生成歌曲。