Chat-GPT就是「參考答案」，連位元組跳動也在「抄作業」？

2023-12-19 07:06:02 電視劇快訊 1784℃

圖片來源@視覺中國

文 | 元宇宙新聲，編輯｜孫浩南

眾所周知，在AI大模型領域，OpenAI研發出Chat-GPT這件事就像上學時老師布置了一個特別困難的題目，就在大家都還在整理解題思路或是百思不得其解的時候，班級里的學霸已經第一個寫完了，於是大部分人則更傾向於與學霸交流思路，抑或是直接抄作業。

近期的種種風波似乎也證實了，許多看似複雜的事物其本質是一樣的。前有馬斯克的Grok AI 因為數據集污染被懷疑抄襲甚至是套殼Chat-GPT ，現有位元組跳動涉嫌違反服務條款被OpenAI 封號。

位元組跳動，陷入大模型輿論風波

近日，外媒The Verge報道稱，位元組跳動利用微軟的 OpenAI API 賬戶生成數據來訓練自己的人工智能模型，這種行為實際上已經違反了微軟和OpenAI的使用條款。在此消息被披露不久，The Verge進一步稱OpenAI已經暫停了位元組跳動的賬戶。

那麼位元組跳動具體是違反了什麼條款呢?其實在OpenAI的服務條款中有一項明確的規定，那就是OpenAI提供的模型能力，不允許用來被「開發任何與之產品和服務形成競爭的 AI 模型」。

根據The Verge的說法，證據是來自位元組跳動的一份內部文件——海外版飛書Lark的聊天記錄。

這份文件表明，位元組跳動在代號為「種子計劃」(Project Seed)基礎大語言模型項目中，幾乎是在每個開發階段都依賴OpenAI的API來進行開發，包括訓練和評估模型。

「種子計劃」大約在一年前啟動，目前主要研發兩個產品，一個是在國內已經上線的豆包;另一個是針對商業用戶的聊天機械人平台，目前正在開發中。

參與「種子計劃」的員工是深知過度依賴OpenAI API的後果，於是他們就開始討論如何通過「數據脫敏」來粉飾證據。以至於經常會出現員工達到OpenAI API的最大訪問上限的情況。

The Verge根據內部文件表示，位元組跳動大約是在幾個月前下達了「模型開發的任何階段停止使用 GPT 生成的文本」的命令。

不過也正是在這個時候，位元組跳動發佈了自家大語言模型豆包。豆包AI官微介紹，豆包AI可以提供聊天機械人、寫作助手以及英語學習助手等功能，它可以回答各種問題並進行對話，幫助人們獲取信息，支持網頁Web平台，iOS以及安卓平台。豆包能提供自然語言處理、知識理解、對話、信息檢索、情感分析、機器學習等多種類型的幫助。

但是，位元組跳動繼續以違反 OpenAI 和微軟服務條款的方式使用 API，包括評估豆包背後模型的性能。一位對位元組跳動內部情況有第一手了解的人指出，「他們說他們想確保一切都是合法的，但他們實際上只是不想被抓住把柄」。

三方接連表態，着急的只有位元組

位元組跳動

在The Verge發出這篇報道之後，位元組跳動發言人Jodi Seth做出了如下回應：GPT 生成的數據在「種子計劃」的早期開發中用於注釋模型，並且在今年年中左右的時候已從位元組跳動的訓練數據中刪除。位元組跳動得到了微軟的授權，可以使用GPT API。我們在非中國市場利用GPT支持我們的產品;但在中國市場，則是使用我們自研的模型來支持豆包。

昨日下午，位元組跳動相關負責人再度回應稱，公司在使用 OpenAI 相關服務時，強調要遵守其使用條款。我們也正與 OpenAI 聯繫溝通，以澄清外部報道可能引發的誤解。

位元組跳動使用 OpenAI 服務相關情況的介紹：

1、今年年初，當技術團隊剛開始進行大模型的初期探索時，有部分工程師將 GPT 的 API 服務應用於較小模型的實驗性項目研究中。該模型僅為測試，沒有計划上線，也從未對外使用。在 4 月公司引入 GPT API 調用規範檢查後，這種做法已經停止。

2、早在今年 4 月，位元組大模型團隊已經提出了明確的內部要求，不得將 GPT 模型生成的數據添加到位元組大模型的訓練數據集，並培訓工程師團隊在使用 GPT 時遵守服務條款。

3、9 月，公司內部又進行了一輪檢查，採取措施進一步保證對 GPT 的 API 調用符合規範要求。例如分批次抽樣模型訓練數據與 GPT 的相似度，避免數據標註人員私自使用 GPT。

4、未來幾天里，我們會再次全面檢查，以確保嚴格遵守相關服務的使用條款。

OpenAI

OpenAI 發言人尼克・菲利克斯(Niko Felix)發表聲明，確認位元組跳動的賬戶已被暫停。「所有 API 客戶必須遵守我們的使用政策，以確保我們的技術被用於好的一面。雖然位元組跳動很少使用我們的 API，但我們在進一步調查期間已暫停了他們的帳戶。如果我們發現他們的使用不符合公司政策，我們將要求他們做出必要的改變或終止他們的賬戶。」菲利克斯表示。

微軟

微軟發言人弗蘭克・肖(Frank Shaw)在一份聲明中表示：「Azure OpenAI 服務等微軟 AI 解決方案屬於我們有限訪問框架的一部分，這意味着所有客戶都必須申請並獲得微軟的批准才能訪問。我們還制定了標準並提供資源，幫助我們的客戶負責任地使用這些技術，並遵守我們的服務條款。我們還制定了發現濫用行為的流程，並在企業違反我們的行為準則時停止他們的訪問。」

從此次事件中的三方聲明中可以看出，OpenAI 比較保守，只是暫停了位元組跳動的賬號，並表示會進行調查後再決定是否需要採取進一步措施。微軟則是有一種「事不關己高高掛起」的態度，彷彿再說「我只是中間人，我們有自己的規定，如果有違反的行為我們會禁止的」。位元組跳動則顯得更着急一些，畢竟「火」已經燒在身上了。先是澄清解釋，再是立刻聯繫OpenAI想要迅速對此次事件「滅火」。

位元組跳動的AI布局

公開資料顯示，早在2016年，位元組跳動就成立了AI實驗室，聚焦於自然語言處理、機器學習、數據挖掘等方面的研究。抖音、今日頭條等位元組跳動旗下產品中也頻頻加入AIGC(生成式人工智能)功能，持續吸引流量。

2023年，位元組跳動在AI領域的動作明顯加快。6月，位元組跳動旗下火山引擎發佈大模型服務平台「火山方舟」，面向企業提供模型精調、評測、推理等全方位的平台服務。

8月，位元組跳動自研的通用大模型「雲雀」在首批通過《生成式人工智能服務管理暫行辦法》大模型名單中露出。

8月17日，位元組跳動公測基於雲雀大模型開發的AI聊天機械人「豆包」，面向C端市場發力AI應用。

近期，在收縮遊戲和XR業務的同時，位元組跳動成立了一個新的AI部門Flow。相關招聘信息顯示，Flow是位元組跳動旗下AI創新業務團隊，目前已在國內和海外分別上線了「豆包」和「Cici」兩款產品，還有多個AI相關創新產品在孵化中。

同時，今年位元組跳動向英偉達訂購超過10億美元的GPU，僅它一家的訂單就達到了英偉達去年在中國銷售商用GPU收入的總和。除此之外，在人才招聘上，有關AIGC新發崗位量TOP10的企業中，位元組跳動也是位列第一，占所有AIGC新發崗位的3.24%。

種種行為足見位元組對於AI和大模型的重視之高，回到此次事件本身，如此重視的位元組會為了「彎道超車」而冒如此大的風險嗎?

元宇宙新聲有話說

ChatGPT 的橫空出世後，位元組跟很多國內大廠一樣，在努力跟進AI的節奏。但顯然位元組要更加落後一點，豆包上線後很多人使用，但效果並沒有達到一流的水準。如果說利用Chat-GPT訓練出來的AI只是這種效果的話，似乎不太說的過去，而如果沒有用Chat-GPT來訓練豆包的話，那麼達到這種效果也算是預料之中。

在此前馬斯克的Grok AI涉嫌抄襲Chat-GPT時，人工智能研究員西蒙·威利森 (Simon Willison)在接受 Ars Technica 採訪時就表示：「許多大模型已經在使用 OpenAI API 生成的數據集上進行了微調，或者從 ChatGPT 本身中抓取。」

但顯然這些操作都是在合理範圍內進行的，位元組或許也是如此，至於位元組是否過於「急功近利」而選擇越過合理範圍進行使用，想必作為一家龐大的互聯網公司，應該還不至於進行如此「因小失大」的抄襲行為。

標籤：電視劇快訊

上一篇：《致命的她》定檔12月21日年末都市女性爽劇來襲

下一篇：比亞迪仰望U9實車諜照曝光：大尺寸尾翼外觀炸裂