文 | 周鑫雨
編輯 | 鄧詠儀
北京時間2023年12月16日上午,科技媒體Command Line作者Alex Health的一篇文章,將OpenAI對位元組跳動的控訴擺到了台前。
這篇「檄文」中,位元組被指控在大語言模型開發項目Project Seed中,幾乎每個階段都在秘密使用OpenAI的模型API來訓練和評估模型。
「參與的員工們對此心知肚明。」Alex Health聲稱自己在位元組的溝通平台飛書上親眼所見,員工討論如何通過數據脫敏來粉飾證據,「濫用非常普遍,以至於Project Seed的員工經常達到訪問API次數的上限。」
這場控訴的結局是,OpenAI禁止了位元組跳動的賬戶。OpenAI發言人Niko Felix通過Alex Health發表了聲明:
所有 API 客戶都必須遵守我們的使用政策,以確保我們的技術得到良好利用。雖然位元組跳動對我們 API 的使用很少,但我們在進一步調查期間已暫停了他們的帳戶。如果我們發現他們的使用不遵守這些政策,我們將要求他們進行必要的更改或終止其帳戶。
OpenAI 發言人 Niko Felix的聲明。
所謂的「Seed」,是位元組在2022年末就啟動的基礎大語言模型開發項目。該項目下有兩個主要產品,一個是已在國內推出的聊天機器人「豆包」,一個則是正在開發中的、計劃通過火山引擎對外提供服務的機器人平台。
一名業內人士對36氪表示,國內廠商用國外主流模型的API先試水業務、訓練模型的情況並不少見:「先用先進模型把業務跑起來,等自己的模型訓練能力達到標準再進行替換。」
而多名知情人士則向36氪透露,目前位元組跳動的模型業務比距,無論是產品項目Flow,還是大模型項目Seed,都有國內海外業務兩手抓的打算。由於政策規定,國內業務將採用位元組自主研發的模型,而海外業務,將先採用國外廠商的模型API服務。
在OpenAI的服務條例中,確實存在競爭保護相關的內容。為了防止客戶使用OpenAI的服務開發競品,OpenAI對客戶的使用範圍做了嚴格的規定:只允許開發非商用的用於數據治理的AI模型,或者用於微調OpenAI對外服務的模型。
OpenAI的服務條例。
「拉黑」風波後,位元組跳動發言人Jodi Seth在當日也快速做出回應。她表示,GPT生成的數據在Project Seed早期被用於標註模型,並在今年年中左右從位元組跳動的訓練數據中刪除:
位元組跳動獲得了微軟使用GPT API的許可。我們使用GPT為非中國市場的產品和功能提供動力,但使用我們的自我發展模型為豆包提供動力,豆包僅在中國可用。
這則聲明承認了位元組存在用GPT生成的數據訓練模型的行為,但這個行為發生在OpenAI設定服務條例之前。可見的是,OpenAI最早一版服務條例發佈於2023年8月28日,而位元組聲稱在年中前已經停止將GPT生成的數據應用於訓練過程。
OpenAI的第一版服務條例更新於2023年8月。
位元組回應的另一個重點,則是強調GPT的API服務是通過微軟雲服務Azure,而非從OpenAI直接獲得。換言之,OpenAI的「拉黑」,顯得越俎代庖。
不過,即便是微軟Azure,也擁有與OpenAI類似的競爭保護條款:「客戶不得使用且不允許第三方使用微軟生成式人工智慧服務創建、培訓或改進(直接或間接)類似或具有競爭性的產品或服務。」
微軟Azure生成式人工智慧服務條款
如今,不少人都在等待微軟Azure的回應。對海外AI業務依賴於國外廠商API的位元組而言,微軟的態度將至關重要。
歡迎交流