2月20日消息,美國人工智能初創公司groq最新推出的面向雲端大模型的推理芯片引發了業內的廣泛關注。其最具特色之處在於,採用了全新的tensor streaming architecture (tsa) 架構,以及擁有超高帶寬的sram,從而使得其對於大模型的推理速度提高了10倍以上,甚至超越了英偉達的gpu。
推理速度是英偉達gpu的10倍,功耗僅1/10
據介紹,groq的大模型推理芯片是全球首個lpu(language processing unit)方案,是一款基於全新的tsa 架構的tensor streaming processor (tsp) 芯片,旨在提高機器學習和人工智能等計算密集型工作負載的性能。
雖然groq的lpu並沒有採用更本高昂的尖端製程工藝,而是選擇了14nm製程,但是憑藉自研的tsa 架構,groq lpu 芯片具有高度的並行處理能力,可以同時處理數百萬個數據流,並該芯片還集成了230mb容量的sram來替代dram,以保證內存帶寬,其片上內存帶寬高達80tb/s。
根據官方的數據顯示,groq的lpu芯片的性能表現相當出色,可以提供高達1000 tops (tera operations per second) 的計算能力,並且在某些機器學習模型上的性能表現可以比常規的 gpu 和 tpu 提升10到100倍。
groq表示,基於其lpu芯片的雲服務器在llama2或mistreal模型在計算和響應速度上遠超基於nvidia ai gpu的chatgpt,其每秒可以生成高達500個 token。相比之下,目前chatgpt-3.5的公開版本每秒只能生成大約40個token。由於chatgpt-3.5主要是基於nvidia的gpu,也就是說,groq lpu芯片的響應速度達到了nvidia gpu的10倍以上。groq表示,相對於其他雲平台廠商的大模型推理性能,基於其lpu芯片的雲服務器的大模型推理性能最終實現了比其他雲平台廠商快18倍。
另外,在能耗方面,英偉達gpu需要大約10到30焦耳才能生成響應中的tokens,而groq lpu芯片僅需1到3焦耳,在推理速度大幅提升10倍的同時,其能耗成本僅有英偉達gpu的十分之一,這等於是性價比提高了100倍。
groq公司在演示中展示了其芯片的強大性能,支持mistral ai的mixtral8x7b smoe,以及meta的llama2的7b和70b等多種模型,支持使用4096位元組的上下文長度,並可直接體驗demo。不僅如此,groq還喊話各大公司,揚言在三年內超越英偉達。目前該公司的lpu推理芯片在第三方網站上的售價為2萬多美元,低於nvidia h100的2.5-3萬美元。
資料顯示,groq 是一家成立於2016年人工智能硬件初創公司,核心團隊來源於谷歌最初的張量處理單元(tpu)工程團隊。groq 創始人兼ceo jonathan ross是谷歌tpu項目的核心研發人員。該公司硬件工程副總裁jim miller 曾是亞馬遜雲計算服務aws設計算力硬件的負責人,還曾在英特爾領導了所有 pentium ii 工程。目前該公司籌集了超過 6200 萬美元。
為何採用大容量sram?
groq lpu芯片與大多數其他初創公司和現有的ai處理器有着截然不同的時序指令集計算機(temporal instruction set computer)架構,它被設計為一個強大的單線程流處理器,配備了專門設計的指令集,旨在利用張量操作和張量移動,使機器學習模型能夠更有效地執行。該架構的獨特之處在於執行單元、片內的sram內存和其他執行單元之間的交互。它無需像使用hbm(高帶寬內存)的gpu那樣頻繁地從內存中加載數據。
groq 的神奇之處不僅在於硬件,還在於軟件。軟件定義的硬件在這裡發揮着重要作用。groq 的軟件將張量流模型或其他深度學習模型編譯成獨立的指令流,並提前進行高度協調和編排。編排來自編譯器。它提前確定並計劃整個執行,從而實現非常確定的計算。「這種確定性來自於我們的編譯器靜態調度所有指令單元的事實。這使我們無需進行任何激進的推測即可公開指令級並行性。芯片上沒有分支目標緩衝區或緩存代理,」groq 的首席架構師 dennis abts 解釋道。groq lpu芯片為了追求性能最大化,因此添加了更多sram內存和執行塊。
sram全名為「靜態隨機存取存儲器」(static random-access memory)是隨機存取存儲器的一種。所謂的「靜態」,是指這種存儲器只要保持通電,裏面儲存的數據就可以恆常保持。相對之下,動態隨機存取存儲器(dram)裏面所儲存的數據則需要周期性地更新。自sram推出60多年來,其一直是低延遲和高可靠性應用的首選存儲器,
事實上,對於 ai/ml 應用來說,sram 不僅僅具有其自身的優勢。「sram 對於 ai 至關重要,尤其是嵌入式 sram,它是性能最高的存儲器,可以將其直接與高密度邏輯核心集成在一起。目前sram也是被諸多cpu集成在片內(更靠近cpu計算單元),作為cpu的高速緩存,使得cpu可以更直接、更快速的從sram中獲取重要的數據,無需去dram當中讀取。只不過,當前旗艦級cpu當中的sram容量最多也僅有幾十個mb。
groq之所以選擇使用大容量的 sram來替代dram 內存的原因主要有以下幾點:
1、sram 內存的訪問速度比 dram 內存快得多,這意味着 lpu 芯片更快速地處理數據,從而提高計算性能。
2、sram 內存沒有 dram 內存的刷新延遲,這意味着lpu芯片也可以更高效地處理數據,減少延遲帶來的影響。
3、sram 內存的功耗比 dram 內存低,這意味着lpu芯片可以更有效地管理能耗,從而提高效率。
但是,對於sram來說,其也有着一些劣勢:
1、面積更大:在邏輯晶體管隨着cmos工藝持續微縮的同時,sram的微縮卻十分的困難。事實上,早在 20nm時代,sram 就無法隨着邏輯晶體管的微縮相應地微縮。
2、容量小:sram 的容量比 dram 小得多,這是因為每個bit的數據需要更多的晶體管來存儲,再加上sram的微縮非常困難,使得相同面積下,sram容量遠低於dram等存儲器。這也使得sram在面對需要存儲大量數據時的應用受到了限制。
3、成本高:sram 的成本比 dram要高得多,再加上相同容量下,sram需要更多的晶體管來存儲數據,這也使得其成本更高。
總的來說,雖然sram 在尺寸、容量和成本等方面具有一些劣勢,這些劣勢限制了其在某些應用中的應用,但是 sram 的訪問速度比 dram 快得多,這使得它在某些計算密集型應用中表現得非常出色。groq lpu 芯片採用的大容量 sram 內存可以提供更高的帶寬(高達80tb/s)、更低的功耗和更低的延遲,從而提高機器學習和人工智能等計算密集型工作負載的效率。
那麼,與目前ai gpu當中所搭載的 hbm 內存相比,groq lpu 芯片集成的 sram 內存又有何優勢和劣勢呢?
groq lpu 芯片的 sram 內存容量雖然有230mb,但是相比之下ai gpu 中的 hbm 容量通常都有數十gb(比如nvidia h100,其集成了80gb hbm),這也意味着lpu 芯片可能無法處理更大的數據集和更複雜的模型。相同容量下,sram的成本也比hbm更高。 不過,與hbm 相比,groq lpu 芯片的所集成的 sram 的仍然有着帶寬更快(nvidia h100的hbm帶寬僅3tb/s)、功耗更低、延遲更低的優勢。
能否替代nvidia h00?
雖然groq公布的數據似乎表明,其lpu芯片的推理速度達到了nvidia gpu的10倍以上,並且能耗成本僅是它十分之一,等於是性價比提高了100倍。但是,groq並且明確指出其比較的是nvidia的哪款gpu產品。由於目前nvidia最主流的ai gpu是h100,因此,我們就拿nvidia h100來與groq lpu來做比較。
由於groq lpu只有230mb的片上sram來作為內存,因此,如果要運行llama-2 70b模型,即使將llama 2 70b量化到int8精度,仍然需要70gb左右的內存,即使完全忽略內存消耗,也需要305張groq lpu加速卡才夠用。如果考慮到內存消耗,可能需要572張groq lpu加速卡。官方數據顯示,groq lpu的平均功耗為185w,即使不計算外圍設備的功耗,572張groq lpu加速卡的總功耗也高達105.8kw。假設一張groq lpu加速卡的價格為2萬美元,因此,購買572張卡的成本高達1144萬美元(規模採購價格應該可以更低)。
根據人工智能科學家賈揚清分享的數據顯示,目前,數據中心每月每千瓦的平均價格約為20美元,這意味着572張groq lpu加速卡每年的電費為105.8*200*12=25.4萬美元。
賈揚清還表示,使用4張nvidia h100加速卡就可以實現572張groq lpu一半的性能,這意味着一個8張h100的服務器的性能大致相當於572張groq lpu。而8張h100加速卡的標稱最大功率為10kw(實際上約為8-9千瓦),因此一年電費為僅24000美元或略低。現在一個8張h100加速卡的服務器的價格約為30萬美元。
顯然,相比較之下,在運行相同的int8精度的llama-2 70b模型時,nvidia h00的實際性價比要遠高於groq lpu。
即使我們以fp16精度的llama-2 7b模型來比較,其最低需要14gb的內存來運行,需要約70張groq lpu加速卡才能夠部署,按照單卡fp16算力188tflops計算,其總算力將達到約13.2pflops。這麼強的算力只是用來推理llama-2 7b模型屬實有些浪費。相比之下,單個nvidia h100加速卡,其集成的80gb hmb就足夠部署5個fp16精度的llama-2 7b模型,而h100在fp16算力約為2pflops。即使要達到70張groq lpu加速卡相同的算力,只需要一台8卡nvidia h100服務器就能夠達到。
單從硬件成本上來計算,70張groq lpu加速卡成本約140萬美元,一個8張h100加速卡的服務器的價格約為30萬美元,顯然,對於運行fp16精度的llama-2 7b模型來說,採用nvidia h100的性價比也是遠高於groq lpu。
當然,這並不是說groq lpu相對於nvidia h100來說毫無優勢,正如前面所介紹的那樣,groq lpu的主要優勢在於其採用了大容量的sram內存,擁有80tb/s的超高的內存帶寬,使得其非常適合於較小的模型且需要頻繁從內存訪問數據的應用場景。當然,其缺點則在於sram的內存容量較小,要運行大模型,就需要更多的groq lpu。那麼,groq lpu能否進一步提升其sram內存容量來彌補這一缺點呢?答案當然是可以,但是,這將會帶來groq lpu面積和成本的大幅增加,並且也會帶來功耗方面的問題。或許未來groq可能會考慮,加入hbm/dram來提升 lpu的適應性。
編輯:芯智訊-浪客劍