從 WAIC談起

(以下內容來自 zartbot)

周末回了趟上海,waic逛了逛然後參加了幾場會, 第一感觸是今年都在卷機械人, 第二個感覺是大模型的垂直場景都在盯着金融和醫療, 第三個感覺是伴隨着多模態, cv大佬們重新站上舞台的中央, 例如階躍和商湯等.  但是大模型落地場景還是有很多困難. 緊接着是一些scalinglaw的天花板在哪裡? 本文分為幾段:

1. 大模型落地相關的探討2. 算法的演進3. 訓練基礎設施4. 推理基礎設施
1. 大模型落地相關的探討

啟明創投有一個很有意思的觀點, 微處理器將計算的邊際成本降至零, 互聯網將信息分發的成本降為零, 人工智能將創作的邊際成本降為零. 但是對於最後一條, 我想可能還是需要分為兩個階段: step-1: 類似於文字/圖片/視頻的生成類創作 step-2:一些多步決策的任務,後一類可能需要走出一條完全不同的路徑. 創作出來的東西能不能用? 是否能夠真的達到kill-time或者save-time的目的呢?

1.1 機械人

今年機械人的熱潮主要就是兩方面的技術, 一個是llm帶來的指令跟隨能力, 另一個就是rl算法和伺服機構的配合越來越成熟, 成本基本上達到可接受的範圍, 但是真正的變成生產力落地賺到錢還是存在一些難題的, b端的一些產線改造可能還好, 但c端人形機械人大概率短期內只是一個噱頭, 主要原因是當前的大模型還缺乏較強的可信的多步決策能力, 因此整個商業邏輯上是沒有閉環的.

1.2 scalinglaw的天花板

基本上國內外對scalinglaw的認知還是對於大模型的參數還可以提升兩個數量級,大概到100t左右. 但是另一方面訓練語料大概在15t左右已經不夠了, 那麼合成數據則是一個非常重要的路徑. 另一方面針對100t的模型訓練, 訓練基礎設施的規模和功耗問題也是一個需要解決的問題.當然另一個問題也逐漸顯現出來, 推理系統的roi如何考慮?

1.3 垂直領域模型

waic展廳里邀請的不少國企都有相應的大模型垂域模型的場景, 某種意義上來說工業/製造這些場景更多的是基於社會責任視角, 從商業上講這些大模型確實可以提高整個社會的製造業效率, 但是從企業經營的角度roi可能並不好. 這一點上能看到一些國有企業在覆蓋這些場景也是挺不錯的.

另一個就是對於商業化的公司而言,垂域模型基本上都在盯着金融和醫療, 醫療這一塊我完全不懂就不談了. 說說金融吧, 畢竟還是考過frm周圍也有一些小夥伴都在做金融風控和量化投資這一塊的.

事實上當前的大模型結構上對於金融時間序列分析的能力和多步決策的能力, 以及生成的內容還是完全無法滿足金融業的需求的, 某種意義上來說, 外行的這些模型算法工程師覺得自己訓練了一個很聰明的大模型 ,其實在金融領域就是類似於回答弱智吧的問題, 並且這個行業只要大模型輸出結果錯一次,基本上就完全會丟掉信任.

1.4 多模態生成

生樹的視頻demo現在已經可以很好的配上聲音了, 階躍的1t-moe多模態的感知能力也非常不錯, 商湯也有蠻不錯的表現. 當然這些1t的模型落地對推理系統的影響是什麼, 基礎設施演進上還有很多路要走.

2. 算法的演進

2.1 多模態使cv重回舞台中央

想起很多年前, rnn/lstm的效率問題使得nlp的同學們遊離在深度學習的邊緣, 最終chatgpt把他們送到了風口, 讓一眾cv的公司突然啞火了. 而伴隨着多模態的演進, 我們看到 階躍和商湯最近都帶來非常不錯的產品. 接下來一些視頻合成數據的訓練或許還能再把一些做cg和物理仿真的人卷進來.

2.2 灰盒模型

漆遠教授帶着「百億參數的可信光語大模型」亮相, 其實這是一個非常值得關注的領域, 那就是灰盒模型, 也是我過去兩三年一直在研究的一個領域

另一方面階躍的ceo姜總也在談到對於多模態的理解上, 以及後面的system2的任務規劃/抽象概念歸納等

從模型結構上來看,decoder-only的模型是一個完全的黑盒模型, 當然從信息壓縮的角度來看,一個1t左右的模型很有可能就可以很好的隱含物理世界的信息了. 但是我們需要在旁邊掛一個白盒模型構建大量的邏輯能力. 

簡而言之, 現在的decoder-only更像是一個直覺判斷的過程, 因此我個人過去十多年對圖神經網絡在金融領域的探索, 以及最近兩年結合大模型的一些探索, 觀點和漆遠教授是相同的, 例如通過範疇論和一些其它新的數學工具的引入來構建白盒系統

3. 訓練基礎設施

針對訓練場景, 夏core昨天寫了一篇《站在ai scale-up域的一個岔路口》[1] ,本質上是一個scaleup分層的邏輯.

我個人的觀點一直是推進以太網scaleup, 並且我也不認同那些非對稱的拓撲帶來的調度和編程的複雜系統。當然相關的工作也在推進中, 具體的方案就不便展開闡述了. 對於下一代基礎設施另一個關鍵的因素是分離式架構的引入, 異構算力的引入.這一點對decoder-only+白盒模型非常關鍵. 例如gpu還是維持原來的transformer架構,而在旁路出來sparse-encoder和一些gnn/決策樹模型在cpu實例上進行互聯. 這一點推理系統也會用到.

4. 推理基礎設施

針對推理昨天有一篇文章補進來... 知乎上看到方佳瑞博士的一篇文章《llm分離式推理可能帶來的軟硬件變革的迷思》[2]

恰逢這周工作上有一些和hugectr相關的事情, 那麼就從軟硬件一體化的視角來闡述一下整個架構的演進, 特別是在分離式推理架構上. 以下觀點僅代表個人,和作者任職機構無關.

4.1. 推理系統和訓練系統的區別

最簡單的一句話是: 推理系統沒有所謂的dp並行. 背後隱藏的一個含義是兩個系統的workload是完全不一樣的.

4.1.1 訓練系統

到達速率和服務速率為確定性分佈

在訓練系統中數據以batch的方式到達, 然後計算時間也相對確定, 一方面是因為backward過程的同步需求, 另一方面是訓練語料本身有長短的分佈但也做了padding, 當然可以通過一些技術對padding進行優化提升計算效率.

4.1.2 推理系統

到達速率假設為泊松分佈, 服務速率受實現方式和服務策略影響

推薦系統請求到達的分佈假設是一個泊松分佈, 另一方面input token和output token的分佈則會帶來服務時間有一個特定的分佈, 簡單的來看按泊松分佈算, 或者有長尾的情況,例如pareto分佈.而prefill-decoder的方式也會影響這個分佈, 因此在調度系統上該如何考慮是一個更值得深思的問題. 這些問題也是最近一段時間工作的一個方向.

聲明:本站轉載文章來自其他媒體,轉載以分享為目的,並不代表本人及任何機構觀點,且不構成任何投資建議