挑戰英偉達,誰最可能成為顛覆者?

·「科技巨頭的容錯能力強,每一次科技領域的革命並不源於大公司犯錯,而是源於一項新興技術的快速崛起。老公司的退潮和新公司的崛起都是時代變化所致。在晶元領域,也許未來會出現適用於大模型的更專用的晶元,而帶來這一革命的也許是一家沒有歷史包袱的新興公司。」

在人工智慧浪潮里掘金的「鏟子」成了硬通貨。

gpu(圖形處理器)是發展人工智慧的關鍵晶元, 科技巨頭英偉達憑藉其gpu在人工智慧晶元市場一家獨大,佔據約80%的份額。

當地時間2024年3月19日,美國加州聖何塞,英偉達2024 gtc ai大會舉行,正式推出名為blackwell的新一代ai圖形處理器(gpu)。視覺中國 資料圖

ai晶元價格高昂,依然稀缺,meta、谷歌、超威半導體(amd)、英特爾、微軟等科技巨頭紛紛挑戰英偉達的市場統治,推出對標產品。晶元大戰愈演愈烈,誰是潛在顛覆者?

晶元大戰愈演愈烈

h100晶元(英偉達於2022年公布的一款gpu晶元)供不應求,雖然英偉達今年3月又推出了h100的繼任者——新一代人工智慧晶元b200。但大大小小的企業都在尋求替代英偉達的gpu,試圖破解ai晶元市場的一家獨大的現狀。

當地時間4月10日,meta公布新一代meta訓練和推理加速器(mtia)的計算和內存帶寬是上一代解決方案的2倍多。最新版本晶元有助於驅動meta在facebook和instagram上的排名和推薦廣告模型。

就在前一天,英特爾也公布了人工智慧晶元細節對抗英偉達。英特爾用於ai訓練和推理的gaudi 3加速器預計可大幅縮短70億和130億參數llama2模型以及1750億參數gpt-3模型的訓練時間。英特爾表示,gaudi 3晶元比英偉達h100訓練特定大語言模型的速度快50%。

谷歌專用於訓練生成式ai大模型的下一代加速器tpu v5p也通過谷歌雲服務上線。微軟首款人工智慧晶元maia 100預計今年上市。

去年12月,amd推出了mi300人工智慧加速器系列產品。其中mi300x擁有1530億個晶體管,是適用於人工智慧計算的高級gpu,專為大語言模型訓練而設計,mi300a將圖形處理功能與標準中央處理器(cpu)相結合,面向人工智慧和科學研究。amd表示,其mi300人工智慧加速器正成為其歷史上營收增長最快的產品,稱其mi300x晶元的推理性能優於英偉達h100。

「谷歌的tpu已經迭代到了第五代,展現出了非常強大的晶元開發能力,並且結合自己對業務線的理解,能夠定義出效率更高的產品。」耀途資本執行董事於光日前對澎湃科技(www.thepaper.cn)評價說。至於英偉達的追趕者amd也是一個大玩家,amd作為一個老牌的cpu和gpu廠商,過去在伺服器cpu領域形成了追趕反超,如今發力ai晶元,是英偉達較為強勁的競爭對手之一。

也有科技投資人對澎湃科技表示,英特爾在ai晶元方面也一直落後於英偉達。

英特爾2019年以來一直在製造gaudi晶元,去年12月在「ai無處不在」(ai everywhere)發布會上發布了gaudi3晶元。但羅森布拉特證券分析師漢斯·莫塞曼(hans mosesmann)表示,「除了英特爾,ai似乎無處不在。」英國投資服務機構aj bell投資總監拉斯·莫爾德(russ mould)則表示,隨著英偉達和amd等公司的晶元在ai行業發揮越來越重要的作用,英特爾有被甩在後面的危險。

「英偉達的技術、產品和業務處於競爭最為激烈的領域,其特點是技術變革迅速和行業標準不斷發展。」深圳中歐基金投資有限公司(即「中歐資本」)董事長張俊對澎湃科技(www.thepaper.cn)表示,未來競爭將更加激烈,競爭來自現有競爭對手和新市場進入者。尤其是新進入者,也是潛在顛覆者。

與其等待大公司犯錯,不如創新

英偉達的ai晶元已經成為硬通貨。

於光表示,英偉達在ai晶元上的布局深厚,產品適配靈活。「上一波ai浪潮中,出現了各種創新架構的ai晶元玩家,試圖顛覆英偉達,但是都沒有取得很廣泛的成功。最後還是英偉達最先趕上了大模型這波機會。」從這一波浪潮來看,已經有很多玩家希望去做針對當前大模型更加優化的ai晶元,但要說顛覆,依然很難。目前來看,ai企業還無法擺脫英偉達這個角色,「基本上還得依賴英偉達的gpu晶元乃至整體解決方案。」

「從來沒有哪一個領域的晶元有今天ai晶元這麼大的市場,大到誇張。」國產gpu行業資深人士薛翔告訴澎湃科技(www.thepaper.cn),「晶元行業有一個說法,一個領域的晶元,只能有兩家公司活得很好,第一家佔80%市場份額,第二家佔20%。」

過去,英特爾的cpu市場大,但單價低;而英偉達h100晶元單價超過了20萬元人民幣。特斯拉ceo馬斯克曾透露,特斯拉今年僅在英偉達ai晶元上就要花5億美元。這看似是一筆巨款,但實際上只相當於大約1萬塊h100。「很多公司發現,一年買10萬張英偉達的加速卡,成本一點也不划算,不如養一個團隊自己研發。」薛翔說,這是一個商業選擇。

正如meta斥資數十億美元購買英偉達和其他公司的人工智慧晶元,面對不斷膨脹的算力需求,meta走上自研之路,減少對英偉達的依賴,降低成本。chatgpt之父、openai首席執行官山姆·奧特曼也在拉攏中東投資者和晶元製造商,欲籌數十億美元建晶元公司,構建半導體工廠網路。日本軟銀集團創始人兼首席執行官孫正義則計劃為ai晶元企業籌資1000億美元,與英偉達競爭。

科技巨頭的容錯能力強,每一次科技領域的革命並不源於大公司犯錯,而是源於一項新興技術的快速崛起。「老公司的退潮和新公司的崛起都是時代變化所致。」薛翔說,在晶元領域,也許未來會出現適用於大模型的更專用的晶元,而帶來這一革命的也許是一家沒有歷史包袱的新興公司。所以,與其等待大公司犯錯,不如自我創新。

但於光認為,在國外的晶元創新生態里,創業公司很難顛覆晶元巨頭。不同於大模型的快速迭代,ai晶元開發周期長,人力、物力投入大。「創業型ai晶元公司可以通過晶元架構的創新獲得融資,然後迭代出前面幾代產品,最後的路徑有可能還是被那些大廠收購,因為真正到工程量產和商業化階段,大廠更有優勢。」

開發ai晶元不能僅盯算力性能

以大模型為代表的人工智慧技術突飛猛進,算力需求激增,升級晶元成為必然。薛翔表示,英偉達等國外科技大廠自a100晶元後「剎不住車」,開發的晶元「一代更比一代強」,性能遙遙領先。「現在相當於在直道上開賽車,晶元生產技術和集群技術沒有達到物理瓶頸之前,沿著這條路往前面跑可以跑得很快,兩三代產品迭代以後會帶來非常大的差距。」但薛翔表示,這是正常現象,不需要過於擔憂。

目前gpu的存儲性能和算力共同決定了大模型的推理速度。但薛翔表示,當前大模型的使用場景對模型生成速度要求並沒有那麼高。所以用ai晶元做單卡大模型推理時,瓶頸主要在存儲。

於光表示,前幾年的ai浪潮中,谷歌、meta等科技巨頭根據自身業務需求自研ai定製晶元。如今大模型帶來ai迅速變革,這些玩家如何將ai晶元適配當前的大模型演算法是共同面對的話題。他同樣認為,開發ai晶元不能僅僅盯著算力性能,存儲和互聯是ai晶元需要解決的問題。

一方面,大模型參數多,需要大容量的存儲空間,目前看起來需要塞下這麼大的模型必須要用到hbm(一款新型的cpu/gpu內存晶元)。另一方面,數據需要從hbm高速傳遞給gpu的計算die(沒有封裝的裸片), gpu之間需要高速互聯例如nvlink(英偉達開發並推出的一種匯流排及其通信協議)和nvswitch(英偉達的一種高速交換機技術)來實現高速通信,以及需要更上層的高速組網方式形成計算集群。於光表示。

再者,在薛翔看來,無限制堆參數和晶元更應該是一種科研行為而非應用行為,「那麼大的模型運行一次很貴,並不符合商業邏輯。」反觀當下,「有一個概念叫ai infra(人工智慧基礎設施),基於現有大模型優化硬體和模型,目的是提高效率。」薛翔估計,「優化算力使用效率,優化模型結構,不用堆那麼多參數,如果每一個方面都能節省20%,整體可以節省50%多的成本。」

深圳元始智能有限公司(即「rwkv元始智能」)首席運營官羅璇對澎湃科技(www.thepaper.cn)表示,中國大部分模型基於低計算效率的開源模型進行微調或重訓練,大部分模型類似於meta的llama2模型。這是一個基於transformer架構的大語言模型,從第一性原理角度看,transformer複雜度過高,算力需求大,未來多智能體、具身智能、世界模型的開發將受限於計算複雜度。這也導致大模型企業被英偉達的gpu「卡脖子」,另一方面英偉達晶元以10倍定價出售,「這是一個非常不正常的算力成本。」

transformer架構和晶元卡住了大模型商業落地和前端研究,羅璇認為一定要找到新的架構,企業才能跑出pmf(產品市場匹配度)。另一方面,「一定不要買高溢價的算力,大部分的錢是被英偉達賺走的。我們認為接下來會有新的算力把成本打到現在的1/10甚至1%。」站在晶元使用者的角度,羅璇表示,目前國產算力還不夠便宜,如何把訓練和推理成本降下來,是國產晶元要解決的問題。