Scaling Law、多模態、價格戰,智源大會成AI春晚

6月14日至15日,“2024北京智源大會”在京舉行。現場,openai sora負責人aditya ramesh(阿迪提亞·拉梅什)進行技術分享,零一萬物ceo、創新工場董事長李開復與中國工程院院士張亞勤爐邊對話,國內大模型創業公司“四小龍”罕見同台。

智源研究院是在國家科學技術部和北京市委市政府的指導下,由北京市科委和海淀區政府於2018年11月成立的新型研發機構。2023年,原院長黃鐵軍從張宏江理事長手上接過理事長的“接力棒”,新任院長由王仲遠出任,後者曾是快手技術副總裁。一年一度的智源大會被行業稱為“ai春晚”。

現場,科技部戰略規劃司副司長康相武表示,當前,人工智能正處在群體性技術變革的起點,正邁向多智能融合的新階段,將成為第四次工業革命的標配,引發社會發展深遠變革。人工智能的大規模跨界應用也將帶來多重安全風險挑戰。如何預期共存且在確保安全可控前提下更好造福人類社會,成為全球人類共同面對的重大議題。

一年內國產大模型迅速迭代

採訪中,王仲遠談及近一年國內大模型技術的發展變動。他稱,2023年時,行業認為國內大模型還在追逐gpt 3.5。今年,國產大模型的平均水平已經超過gpt3.5,無限逼近gpt4。甚至在中文語境下的某些能力上,國內大模型超過gpt4,但gpt4本身也在不斷迭代。例如最新發布的gpt4o整體性能、效果,甚至效率都有了顯著提升,因此整個國產大模型還處在一個追趕的階段。

大會現場,王仲遠披露了智源研究院在語言、多模態、具身、生物計算大模型等方面的進展。包括智源研究院和中國電信人工智能研究院(teleai)聯合研發並推出全球首個低碳單體稠密萬億語言模型 tele-flm-1t。針對大模型幻覺等問題,智源研究院自主研發了通用語義向量模型bge(baai general embedding)系列。以及為實現多模態、統一、端到端的下一代大模型,智源研究院推出了emu3原生多模態世界模型。

王仲遠表示,國產大模型達到可用、但並不非常好用的水平,gpt4之後,大模型可以進入到場景內進行快速迭代,但與之伴隨的突破難度也非常大,包括算力資源、核心算法、系統工程等方面,如萬卡以上的gpu如何實現芯片互聯仍面臨一定挑戰。

近一年大模型迅速發展的因素中,scaling law(規模法則)成為與會嘉賓多次提到的關鍵。李開復表示,ai 2.0是有史以來最偉大的科技革命和平台革命,大模型scaling law的重要性在這個時代得以凸顯——人類能夠用更多計算和數據不斷增加大模型的智慧,這條被多方驗證的路徑還在推進中,遠未觸達天花板。

月之暗面ceo楊植麟認可大模型是第一性原理,需要不斷提升模型的規模,但其中最大的挑戰是有一些數據並不一定有那麼多。智譜ai ceo張鵬從實用主義角度表示,scaling law還在有效,還在前進。至於它能否幫助大模型達到頂峰,目前行業找不到一個確切的答案。百川智能ceo王小川從agi的終點來看,要實現agi除了規模,還需要有範式的改變,如大模型靠數據驅動學習做壓縮,但目前的scaling law是做不到agi的。面壁智能ceo李大海表示,scaling law是一個經驗公式,是行業對大模型這樣一個複雜系統觀察以後的經驗總結,隨着訓練過程中實驗越來越多、認知越來越清晰,會有更細顆粒度的認知,如模型訓練中的訓練方法對scaling law、對智能的影響比較顯著。

逼近gpt4之後的布局

採訪中王仲遠表示,國產大模型已經到了能夠去支撐應用的階段,所以他個人預測,未來兩三年可以看到大量大模型應用的產生。至於具體分類,王仲遠認為b端應用非常明確,幾乎覆蓋了所有行業。至於c端,行業普遍期待看到c端的爆款級應用。但類比移動互聯網時代,當一個新技術或技術革命出現時,都需要一定的周期,需要天時地利人和,需要有技術能力。

具體到大模型落地c端產品,王仲遠認為還需要模型足夠低價好用,同時解決用戶的真實痛點,因此對c端爆款應用需要保持一定耐心,“即使在大洋彼岸,也還沒有出現c端的爆款應用。”王仲遠稱。

如果agi時代到來,可能發生的技術演進路線是怎樣的呢?王仲遠認為,過去幾年,絕大部分的科研關注度,包括產業的關注度,都在大語言模型的突破,目前大語言模型依然是單語言的模型,但除了文本數據外,還存在大量圖像、視頻、音頻等多模態數據。當多模態大模型能夠理解和感知、決策這個世界時,它就有可能進入到物理世界。如果進入到宏觀世界與硬件結合,這就是具身大模型的發展方向;如果進入到微觀世界去理解和生成生命分子,這就是ai for science。

openaisora團隊負責人aditya ramesh在與紐約大學助理教授謝賽寧的對話環節中表示,對於構建更加智能的具有推理能力的系統來說,語言模態確實十分重要,但從某種意義上來說,將語言信息以某種通用接口融入視覺信號中或許可以實現模擬任何事物的能力。隨着模型規模的增大,其對於語言的依賴也會降低。

近期,海內外多模態領域更新頻繁,包括ai初創公司luma ai發布視頻生成模型dream machine,短視頻公司快手推出kling大模型。對於行業現狀,aditya ramesh表示,團隊目前最關心的是視頻生成模型的安全性及其對社會的影響,希望人們不要用sora來發布錯誤的信息,也希望模型的行為符合人類的期望。很開心看到有其他實驗室和公司從事視頻生成模型的研發,有大量的人嘗試使用不同的方法對於激發藝術和擴散模型領域的創新很重要。而“提高可控性”和“減少隨機性”是sora團隊目前從合作方收到的最重要的功能需求。

ai安全是此次智源大會另一個重要議題,楊植麟同樣認為ai安全非常重要,雖然不一定是當前最急迫的,但是一個需要提前去準備的事情。因為隨着模型的進展,scaling law的發展是每n個月算力乘以10倍,智能會得到提升。楊植麟認為ai安全包括模型本身因用戶而產生的惡意意圖,以及在模型底層注入ai“憲法”框定模型的行為。

李大海認為,現階段安全主要聚焦在基礎安全與內容安全兩個方向上,現在的大模型本質上是只讀的,權重是固定的,推理不會影響權重。未來當用戶將模型部署到機器人等終端上,模型能夠去動態更新自己的權重後,安全問題將變成一個非常重要的問題。

對於近期的價格戰問題,王小川表示,降價讓更多個人與企業入場,同時令很多企業開始清醒,不再參與做大模型,而是“退”回來成為大模型的用戶,減少資源浪費。

(本文來自第一財經)