Chat-GPT就是“參考答案”,連字節跳動也在“抄作業”?

圖片來源@視覺中國

文 | 元宇宙新聲,編輯|孫浩南

眾所周知,在AI大模型領域,OpenAI研發出Chat-GPT這件事就像上學時老師布置了一個特別困難的題目,就在大家都還在整理解題思路或是百思不得其解的時候,班級里的學霸已經第一個寫完了,於是大部分人則更傾向於與學霸交流思路,抑或是直接抄作業。

近期的種種風波似乎也證實了,許多看似複雜的事物其本質是一樣的。前有馬斯克的Grok AI 因為數據集污染被懷疑抄襲甚至是套殼Chat-GPT ,現有字節跳動涉嫌違反服務條款被OpenAI 封號。

字節跳動,陷入大模型輿論風波

近日,外媒The Verge報道稱,字節跳動利用微軟的 OpenAI API 賬戶生成數據來訓練自己的人工智能模型,這種行為實際上已經違反了微軟和OpenAI的使用條款。在此消息被披露不久,The Verge進一步稱OpenAI已經暫停了字節跳動的賬戶。

那麼字節跳動具體是違反了什麼條款呢?其實在OpenAI的服務條款中有一項明確的規定,那就是OpenAI提供的模型能力,不允許用來被“開發任何與之產品和服務形成競爭的 AI 模型”。

根據The Verge的說法,證據是來自字節跳動的一份內部文件——海外版飛書Lark的聊天記錄。

這份文件表明,字節跳動在代號為“種子計劃”(Project Seed)基礎大語言模型項目中,幾乎是在每個開發階段都依賴OpenAI的API來進行開發,包括訓練和評估模型。

“種子計劃”大約在一年前啟動,目前主要研發兩個產品,一個是在國內已經上線的豆包;另一個是針對商業用戶的聊天機器人平台,目前正在開發中。

參與“種子計劃”的員工是深知過度依賴OpenAI API的後果,於是他們就開始討論如何通過“數據脫敏”來粉飾證據。以至於經常會出現員工達到OpenAI API的最大訪問上限的情況。

The Verge根據內部文件表示,字節跳動大約是在幾個月前下達了“模型開發的任何階段停止使用 GPT 生成的文本”的命令。

不過也正是在這個時候,字節跳動發布了自家大語言模型豆包。豆包AI官微介紹,豆包AI可以提供聊天機器人、寫作助手以及英語學習助手等功能,它可以回答各種問題並進行對話,幫助人們獲取信息,支持網頁Web平台,iOS以及安卓平台。豆包能提供自然語言處理、知識理解、對話、信息檢索、情感分析、機器學習等多種類型的幫助。

但是,字節跳動繼續以違反 OpenAI 和微軟服務條款的方式使用 API,包括評估豆包背後模型的性能。一位對字節跳動內部情況有第一手了解的人指出,“他們說他們想確保一切都是合法的,但他們實際上只是不想被抓住把柄”。

三方接連表態,着急的只有字節

字節跳動

在The Verge發出這篇報道之後,字節跳動發言人Jodi Seth做出了如下回應:GPT 生成的數據在“種子計劃”的早期開發中用於注釋模型,並且在今年年中左右的時候已從字節跳動的訓練數據中刪除。字節跳動得到了微軟的授權,可以使用GPT API。我們在非中國市場利用GPT支持我們的產品;但在中國市場,則是使用我們自研的模型來支持豆包。

昨日下午,字節跳動相關負責人再度回應稱,公司在使用 OpenAI 相關服務時,強調要遵守其使用條款。我們也正與 OpenAI 聯繫溝通,以澄清外部報道可能引發的誤解。

字節跳動使用 OpenAI 服務相關情況的介紹:

1、今年年初,當技術團隊剛開始進行大模型的初期探索時,有部分工程師將 GPT 的 API 服務應用於較小模型的實驗性項目研究中。該模型僅為測試,沒有計划上線,也從未對外使用。在 4 月公司引入 GPT API 調用規範檢查後,這種做法已經停止。

2、早在今年 4 月,字節大模型團隊已經提出了明確的內部要求,不得將 GPT 模型生成的數據添加到字節大模型的訓練數據集,並培訓工程師團隊在使用 GPT 時遵守服務條款。

3、9 月,公司內部又進行了一輪檢查,採取措施進一步保證對 GPT 的 API 調用符合規範要求。例如分批次抽樣模型訓練數據與 GPT 的相似度,避免數據標註人員私自使用 GPT。

4、未來幾天里,我們會再次全面檢查,以確保嚴格遵守相關服務的使用條款。

OpenAI

OpenAI 發言人尼克・菲利克斯(Niko Felix)發表聲明,確認字節跳動的賬戶已被暫停。“所有 API 客戶必須遵守我們的使用政策,以確保我們的技術被用於好的一面。雖然字節跳動很少使用我們的 API,但我們在進一步調查期間已暫停了他們的帳戶。如果我們發現他們的使用不符合公司政策,我們將要求他們做出必要的改變或終止他們的賬戶。”菲利克斯表示。

微軟

微軟發言人弗蘭克・肖(Frank Shaw)在一份聲明中表示:“Azure OpenAI 服務等微軟 AI 解決方案屬於我們有限訪問框架的一部分,這意味着所有客戶都必須申請並獲得微軟的批准才能訪問。我們還制定了標準並提供資源,幫助我們的客戶負責任地使用這些技術,並遵守我們的服務條款。我們還制定了發現濫用行為的流程,並在企業違反我們的行為準則時停止他們的訪問。”

從此次事件中的三方聲明中可以看出,OpenAI 比較保守,只是暫停了字節跳動的賬號,並表示會進行調查後再決定是否需要採取進一步措施。微軟則是有一種“事不關己高高掛起”的態度,彷彿再說“我只是中間人,我們有自己的規定,如果有違反的行為我們會禁止的”。字節跳動則顯得更着急一些,畢竟“火”已經燒在身上了。先是澄清解釋,再是立刻聯繫OpenAI想要迅速對此次事件“滅火”。

字節跳動的AI布局

公開資料顯示,早在2016年,字節跳動就成立了AI實驗室,聚焦於自然語言處理、機器學習、數據挖掘等方面的研究。抖音、今日頭條等字節跳動旗下產品中也頻頻加入AIGC(生成式人工智能)功能,持續吸引流量。

2023年,字節跳動在AI領域的動作明顯加快。6月,字節跳動旗下火山引擎發布大模型服務平台“火山方舟”,面向企業提供模型精調、評測、推理等全方位的平台服務。

8月,字節跳動自研的通用大模型“雲雀”在首批通過《生成式人工智能服務管理暫行辦法》大模型名單中露出。

8月17日,字節跳動公測基於雲雀大模型開發的AI聊天機器人“豆包”,面向C端市場發力AI應用。

近期,在收縮遊戲和XR業務的同時,字節跳動成立了一個新的AI部門Flow。相關招聘信息顯示,Flow是字節跳動旗下AI創新業務團隊,目前已在國內和海外分別上線了“豆包”和“Cici”兩款產品,還有多個AI相關創新產品在孵化中。

同時,今年字節跳動向英偉達訂購超過10億美元的GPU,僅它一家的訂單就達到了英偉達去年在中國銷售商用GPU收入的總和。除此之外,在人才招聘上,有關AIGC新發崗位量TOP10的企業中,字節跳動也是位列第一,占所有AIGC新發崗位的3.24%。

種種行為足見字節對於AI和大模型的重視之高,回到此次事件本身,如此重視的字節會為了“彎道超車”而冒如此大的風險嗎?

元宇宙新聲有話說

ChatGPT 的橫空出世後,字節跟很多國內大廠一樣,在努力跟進AI的節奏。但顯然字節要更加落後一點,豆包上線後很多人使用,但效果並沒有達到一流的水準。如果說利用Chat-GPT訓練出來的AI只是這種效果的話,似乎不太說的過去,而如果沒有用Chat-GPT來訓練豆包的話,那麼達到這種效果也算是預料之中。

在此前馬斯克的Grok AI涉嫌抄襲Chat-GPT時,人工智能研究員西蒙·威利森 (Simon Willison)在接受 Ars Technica 採訪時就表示:“許多大模型已經在使用 OpenAI API 生成的數據集上進行了微調,或者從 ChatGPT 本身中抓取。”

但顯然這些操作都是在合理範圍內進行的,字節或許也是如此,至於字節是否過於“急功近利”而選擇越過合理範圍進行使用,想必作為一家龐大的互聯網公司,應該還不至於進行如此“因小失大”的抄襲行為。