吾道南來:為紐約時報向生成式AI維權叫好

作者:吾道南來(資深媒體人)

來源:「青年記者雜誌」微信公眾號

導 讀:

紐約時報向生成式ai維權給我們以深刻的啟示:新聞媒體與大模型企業既要鬥爭,又要合作,鬥爭是為了更好的合作。

2023年年底,美國紐約時報將openai(開放人工智能研究中心)及其夥伴微軟公司告上法庭,指控這兩家公司未經授權使用該媒體數以百萬計的文章訓練chatgpt等生成式ai,要求停止使用其內容訓練ai模型並銷毀訓練數據,並要求獲得損害賠償。

這一訴訟已被美國當地法院受理。雖然這不是國內外大模型企業被訴訟的第一例,但國際知名媒體狀告大模型企業是首例。這可能是迄今為止向生成式ai維權最具代表性和全球影響力的案例,判決結果可能會影響整個ai產業和新聞出版業的發展方向。

作為媒體人,筆者不禁為此鼓掌叫好。

2023年1月,圖庫網站getty images對ai圖像生成器研發公司stability ai提起法律訴訟,指其非法複製和處理版權圖像作為模型訓練數據;4月,環球音樂集團發函要求spotify等音樂流媒體平台切斷ai公司的訪問權限,以阻止其版權歌曲被用於訓練模型和生成音樂;6月,國內的筆神作文發佈聲明,指控學而思ai大模型侵權;12月多名創作者起訴小紅書ai模型涉嫌使用這些畫師的作品訓練。據不完全統計,2023年僅在美國加州,就有數十起針對大模型開發商違規使用數據的訴訟。

筆者認為,紐約時報的起訴並非如openai回應的那樣「毫無根據」。

其一,紐約時報的起訴有充分的法理依據。

美國是全球知識產權保護最嚴格的國家之一。紐約時報對其生產的圖文、視頻等內容擁有無可爭辯的版權,內容數據是其優質資產,如果被用來訓練生成式ai,無疑是比較稀缺、優質的訓練語料。

openai在聲明中反覆強調,由於模型是從人類知識的巨大集合中學習的,因此任何一個領域——包括新聞——都只是所有訓練數據中的一小部分,任何一個數據源——包括紐約時報——對模型的專門學習都沒有意義。但是,openai為何這麼看重紐約時報等媒體的數據,就是因為這些媒體擁有的數據是可信的訓練數據來源,這就不難理解為什麼openai此前與紐約時報等一直在談判。據openai 知識產權和內容首席 tom rubin表示,公司近期與數十家出版商展開了有關許可協議的談判。據兩名近期與 openai 進行談判的媒體公司高管透露,為了獲得將新聞文章用於訓練其大模型的許可,openai 願意向部分媒體公司繳納每年100萬至500萬美元的費用。總之,數據是大模型訓練的基石,如果沒有可信、可靠的數據,大模型的訓練就是無源之水、無本之木。大模型的迅速發展已引發「數據饑荒」。

根據美國現行版權法及其加入的《世界版權公約》《伯爾尼公約》《日內瓦公約》等著作權國際條約,除合理使用和強制許可外,未經授權不得複製和傳播版權作品。紐約時報訴稱:「如果微軟和openai要將我們的作品用於商業目的,法律要求他們首先要獲得我們的許可。但他們沒有這樣做。」

openai辯稱,使用公開可用的互聯網資料訓練大模型是合理使用,這一原則對創造者是公平的,對創新者是必要的,對美國的競爭力也是至關重要的。

筆者認為,按照美國現行的版權法,大模型使用版權作品訓練,很難歸入合理使用的法定情形。

美國對著作權的權利限制,有合理使用和強制許可。合理使用的規定集中體現在其版權法第107條之中,該條不僅列舉了批評與評論、新聞報道、教學活動及學術研究等傳統的合理使用範疇,而且列出了判斷合理使用與否的四條標準:(1)使用的目的與性質;(2)該版權作品的性質;(3)使用部分佔被利用作品質與量的比例;(4)該使用對版權作品潛在市場或價值所產生的影響。這被稱為合理使用認定「四要素標準」。

根據這4條標準,大模型使用版權作品訓練很難夠得上「合理使用」,因為其使用目的最終是商用。如果openai有強硬的法律撐腰,就不會去和出版商談判了。

其二,紐約時報的起訴有充足的事實依據。

紐約時報認為,openai和微軟旗下的生成式ai吸收了其幾百萬篇原創文章,不僅可以將原報道逐字逐句地「複製」給提問的用戶,還可模仿其寫作風格,對文章進行提煉、總結,甚至被當作可靠信源。其搜集的多達100個證據顯示chatgpt輸出的內容與紐約時報的新聞內容高度相似,openai的 gpt-4涉嫌直接抄襲紐約時報的原文。紐約時報表示,涉事公司需要承擔其造成的「價值數十億美元的法定及實際損失」。

最近的一項研究結果也表明,生成式 ai 開發商就是在用版權素材訓練自己的系統,生成式 ai 系統可能會頻繁產生文本和視覺抄襲輸出。

在確鑿的證據面前,openai也承認了這一點。他們把這種抄襲輸出現象稱為「反流」:「死記硬背是學習過程中的一種罕見故障,我們正在不斷加以解決,但當特定內容在訓練數據中出現不止一次時,這種故障就比較常見了。例如,如果這些內容的片段出現在許多不同的公共網站上。因此,我們採取了一些措施來限制無意中的記憶,防止在模型輸出中出現重複內容。」

紐約時報在訴訟中還提到了生成式ai的另一個通病——會生成並傳播虛假、無意義或令人反感的內容。比如,微軟必應上的聊天機械人曾羅列過「15種有利於心臟健康的食物」,並將信源指向紐約時報,但這15種食物中有12種未被原報道提及。筆者認為,這不僅涉嫌侵犯版權,而且涉嫌侵犯紐約時報的名譽權。

從海內外的報道來看,針對大模型企業的版權訴訟主要聚焦於模型訓練和輸出階段的侵權行為。大模型企業與新聞媒體的博弈一直在展開,雙方都在強調其發展的重要性。

2023年5月,在美國國會召開的「交互中的人工智能與版權法」聽證會上,美國版權局前總法律顧問sy damle表示:「任何強制模型對於訓練內容付費許可的嘗試,要麼會使美國ai行業破產,消除我們在國際舞台上的競爭力;要麼會驅使這些頭部ai公司離開這個國家。」

紐約時報則表示,若相關新聞機構無法保護其獨立報道,原創新聞報道會隨之減少,屆時「社會將出現計算機和ai無法填補的真空」。

筆者認為,雙方都有願望進行合作,相互成就,創造互惠互利、共享發展的機會,關鍵是找到一個雙方利益的平衡點。比如大模型企業為新聞媒體的智能化生產、傳播、運營提供技術支持,支持新聞媒體建立健康的新聞生態系統,授權大模型使用版權內容但要支付一定的費用等。

總之,紐約時報向生成式ai維權給我們以深刻的啟示:新聞媒體與大模型企業既要鬥爭,又要合作,鬥爭是為了更好的合作