吾道南来:为纽约时报向生成式AI维权叫好

作者:吾道南来(资深媒体人)

来源:“青年记者杂志”微信公众号

导 读:

纽约时报向生成式ai维权给我们以深刻的启示:新闻媒体与大模型企业既要斗争,又要合作,斗争是为了更好的合作。

2023年年底,美国纽约时报将openai(开放人工智能研究中心)及其伙伴微软公司告上法庭,指控这两家公司未经授权使用该媒体数以百万计的文章训练chatgpt等生成式ai,要求停止使用其内容训练ai模型并销毁训练数据,并要求获得损害赔偿。

这一诉讼已被美国当地法院受理。虽然这不是国内外大模型企业被诉讼的第一例,但国际知名媒体状告大模型企业是首例。这可能是迄今为止向生成式ai维权最具代表性和全球影响力的案例,判决结果可能会影响整个ai产业和新闻出版业的发展方向。

作为媒体人,笔者不禁为此鼓掌叫好。

2023年1月,图库网站getty images对ai图像生成器研发公司stability ai提起法律诉讼,指其非法复制和处理版权图像作为模型训练数据;4月,环球音乐集团发函要求spotify等音乐流媒体平台切断ai公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐;6月,国内的笔神作文发布声明,指控学而思ai大模型侵权;12月多名创作者起诉小红书ai模型涉嫌使用这些画师的作品训练。据不完全统计,2023年仅在美国加州,就有数十起针对大模型开发商违规使用数据的诉讼。

笔者认为,纽约时报的起诉并非如openai回应的那样“毫无根据”。

其一,纽约时报的起诉有充分的法理依据。

美国是全球知识产权保护最严格的国家之一。纽约时报对其生产的图文、视频等内容拥有无可争辩的版权,内容数据是其优质资产,如果被用来训练生成式ai,无疑是比较稀缺、优质的训练语料。

openai在声明中反复强调,由于模型是从人类知识的巨大集合中学习的,因此任何一个领域——包括新闻——都只是所有训练数据中的一小部分,任何一个数据源——包括纽约时报——对模型的专门学习都没有意义。但是,openai为何这么看重纽约时报等媒体的数据,就是因为这些媒体拥有的数据是可信的训练数据来源,这就不难理解为什么openai此前与纽约时报等一直在谈判。据openai 知识产权和内容首席 tom rubin表示,公司近期与数十家出版商展开了有关许可协议的谈判。据两名近期与 openai 进行谈判的媒体公司高管透露,为了获得将新闻文章用于训练其大模型的许可,openai 愿意向部分媒体公司缴纳每年100万至500万美元的费用。总之,数据是大模型训练的基石,如果没有可信、可靠的数据,大模型的训练就是无源之水、无本之木。大模型的迅速发展已引发“数据饥荒”。

根据美国现行版权法及其加入的《世界版权公约》《伯尔尼公约》《日内瓦公约》等著作权国际条约,除合理使用和强制许可外,未经授权不得复制和传播版权作品。纽约时报诉称:“如果微软和openai要将我们的作品用于商业目的,法律要求他们首先要获得我们的许可。但他们没有这样做。”

openai辩称,使用公开可用的互联网资料训练大模型是合理使用,这一原则对创造者是公平的,对创新者是必要的,对美国的竞争力也是至关重要的。

笔者认为,按照美国现行的版权法,大模型使用版权作品训练,很难归入合理使用的法定情形。

美国对著作权的权利限制,有合理使用和强制许可。合理使用的规定集中体现在其版权法第107条之中,该条不仅列举了批评与评论、新闻报道、教学活动及学术研究等传统的合理使用范畴,而且列出了判断合理使用与否的四条标准:(1)使用的目的与性质;(2)该版权作品的性质;(3)使用部分占被利用作品质与量的比例;(4)该使用对版权作品潜在市场或价值所产生的影响。这被称为合理使用认定“四要素标准”。

根据这4条标准,大模型使用版权作品训练很难够得上“合理使用”,因为其使用目的最终是商用。如果openai有强硬的法律撑腰,就不会去和出版商谈判了。

其二,纽约时报的起诉有充足的事实依据。

纽约时报认为,openai和微软旗下的生成式ai吸收了其几百万篇原创文章,不仅可以将原报道逐字逐句地“复制”给提问的用户,还可模仿其写作风格,对文章进行提炼、总结,甚至被当作可靠信源。其搜集的多达100个证据显示chatgpt输出的内容与纽约时报的新闻内容高度相似,openai的 gpt-4涉嫌直接抄袭纽约时报的原文。纽约时报表示,涉事公司需要承担其造成的“价值数十亿美元的法定及实际损失”。

最近的一项研究结果也表明,生成式 ai 开发商就是在用版权素材训练自己的系统,生成式 ai 系统可能会频繁产生文本和视觉抄袭输出。

在确凿的证据面前,openai也承认了这一点。他们把这种抄袭输出现象称为“反流”:“死记硬背是学习过程中的一种罕见故障,我们正在不断加以解决,但当特定内容在训练数据中出现不止一次时,这种故障就比较常见了。例如,如果这些内容的片段出现在许多不同的公共网站上。因此,我们采取了一些措施来限制无意中的记忆,防止在模型输出中出现重复内容。”

纽约时报在诉讼中还提到了生成式ai的另一个通病——会生成并传播虚假、无意义或令人反感的内容。比如,微软必应上的聊天机器人曾罗列过“15种有利于心脏健康的食物”,并将信源指向纽约时报,但这15种食物中有12种未被原报道提及。笔者认为,这不仅涉嫌侵犯版权,而且涉嫌侵犯纽约时报的名誉权。

从海内外的报道来看,针对大模型企业的版权诉讼主要聚焦于模型训练和输出阶段的侵权行为。大模型企业与新闻媒体的博弈一直在展开,双方都在强调其发展的重要性。

2023年5月,在美国国会召开的“交互中的人工智能与版权法”听证会上,美国版权局前总法律顾问sy damle表示:“任何强制模型对于训练内容付费许可的尝试,要么会使美国ai行业破产,消除我们在国际舞台上的竞争力;要么会驱使这些头部ai公司离开这个国家。”

纽约时报则表示,若相关新闻机构无法保护其独立报道,原创新闻报道会随之减少,届时“社会将出现计算机和ai无法填补的真空”。

笔者认为,双方都有愿望进行合作,相互成就,创造互惠互利、共享发展的机会,关键是找到一个双方利益的平衡点。比如大模型企业为新闻媒体的智能化生产、传播、运营提供技术支持,支持新闻媒体建立健康的新闻生态系统,授权大模型使用版权内容但要支付一定的费用等。

总之,纽约时报向生成式ai维权给我们以深刻的启示:新闻媒体与大模型企业既要斗争,又要合作,斗争是为了更好的合作