位元組回應被OpenAI「拉黑」：年中已停止使用GPT訓練模型 | 最前線

分類：明星新聞

瀏覽數：4898

2023-12-16

文 | 周鑫雨

編輯 | 鄧詠儀

北京時間2023年12月16日上午，科技媒體Command Line作者Alex Health的一篇文章，將OpenAI對位元組跳動的控訴擺到了台前。

這篇「檄文」中，位元組被指控在大語言模型開發項目Project Seed中，幾乎每個階段都在秘密使用OpenAI的模型API來訓練和評估模型。

「參與的員工們對此心知肚明。」Alex Health聲稱自己在位元組的溝通平台飛書上親眼所見，員工討論如何通過數據脫敏來粉飾證據，「濫用非常普遍，以至於Project Seed的員工經常達到訪問API次數的上限。」

這場控訴的結局是，OpenAI禁止了位元組跳動的賬戶。OpenAI發言人Niko Felix通過Alex Health發表了聲明：

所有 API 客戶都必須遵守我們的使用政策，以確保我們的技術得到良好利用。雖然位元組跳動對我們 API 的使用很少，但我們在進一步調查期間已暫停了他們的帳戶。如果我們發現他們的使用不遵守這些政策，我們將要求他們進行必要的更改或終止其帳戶。

OpenAI 發言人 Niko Felix的聲明。

所謂的「Seed」，是位元組在2022年末就啟動的基礎大語言模型開發項目。該項目下有兩個主要產品，一個是已在國內推出的聊天機器人「豆包」，一個則是正在開發中的、計劃通過火山引擎對外提供服務的機器人平台。

一名業內人士對36氪表示，國內廠商用國外主流模型的API先試水業務、訓練模型的情況並不少見：「先用先進模型把業務跑起來，等自己的模型訓練能力達到標準再進行替換。」

而多名知情人士則向36氪透露，目前位元組跳動的模型業務比距，無論是產品項目Flow，還是大模型項目Seed，都有國內海外業務兩手抓的打算。由於政策規定，國內業務將採用位元組自主研發的模型，而海外業務，將先採用國外廠商的模型API服務。

在OpenAI的服務條例中，確實存在競爭保護相關的內容。為了防止客戶使用OpenAI的服務開發競品，OpenAI對客戶的使用範圍做了嚴格的規定：只允許開發非商用的用於數據治理的AI模型，或者用於微調OpenAI對外服務的模型。

OpenAI的服務條例。

「拉黑」風波後，位元組跳動發言人Jodi Seth在當日也快速做出回應。她表示，GPT生成的數據在Project Seed早期被用於標註模型，並在今年年中左右從位元組跳動的訓練數據中刪除：

位元組跳動獲得了微軟使用GPT API的許可。我們使用GPT為非中國市場的產品和功能提供動力，但使用我們的自我發展模型為豆包提供動力，豆包僅在中國可用。

這則聲明承認了位元組存在用GPT生成的數據訓練模型的行為，但這個行為發生在OpenAI設定服務條例之前。可見的是，OpenAI最早一版服務條例發佈於2023年8月28日，而位元組聲稱在年中前已經停止將GPT生成的數據應用於訓練過程。

OpenAI的第一版服務條例更新於2023年8月。

位元組回應的另一個重點，則是強調GPT的API服務是通過微軟雲服務Azure，而非從OpenAI直接獲得。換言之，OpenAI的「拉黑」，顯得越俎代庖。

不過，即便是微軟Azure，也擁有與OpenAI類似的競爭保護條款：「客戶不得使用且不允許第三方使用微軟生成式人工智慧服務創建、培訓或改進（直接或間接）類似或具有競爭性的產品或服務。」

微軟Azure生成式人工智慧服務條款

如今，不少人都在等待微軟Azure的回應。對海外AI業務依賴於國外廠商API的位元組而言，微軟的態度將至關重要。

歡迎交流

「明星新聞」資訊推薦