挑战英伟达,谁最可能成为颠覆者?

·“科技巨头的容错能力强,每一次科技领域的革命并不源于大公司犯错,而是源于一项新兴技术的快速崛起。老公司的退潮和新公司的崛起都是时代变化所致。在芯片领域,也许未来会出现适用于大模型的更专用的芯片,而带来这一革命的也许是一家没有历史包袱的新兴公司。”

在人工智能浪潮里掘金的“铲子”成了硬通货。

gpu(图形处理器)是发展人工智能的关键芯片, 科技巨头英伟达凭借其gpu在人工智能芯片市场一家独大,占据约80%的份额。

当地时间2024年3月19日,美国加州圣何塞,英伟达2024 gtc ai大会举行,正式推出名为blackwell的新一代ai图形处理器(gpu)。视觉中国 资料图

ai芯片价格高昂,依然稀缺,meta、谷歌、超威半导体(amd)、英特尔、微软等科技巨头纷纷挑战英伟达的市场统治,推出对标产品。芯片大战愈演愈烈,谁是潜在颠覆者?

芯片大战愈演愈烈

h100芯片(英伟达于2022年公布的一款gpu芯片)供不应求,虽然英伟达今年3月又推出了h100的继任者——新一代人工智能芯片b200。但大大小小的企业都在寻求替代英伟达的gpu,试图破解ai芯片市场的一家独大的现状。

当地时间4月10日,meta公布新一代meta训练和推理加速器(mtia)的计算和内存带宽是上一代解决方案的2倍多。最新版本芯片有助于驱动meta在facebook和instagram上的排名和推荐广告模型。

就在前一天,英特尔也公布了人工智能芯片细节对抗英伟达。英特尔用于ai训练和推理的gaudi 3加速器预计可大幅缩短70亿和130亿参数llama2模型以及1750亿参数gpt-3模型的训练时间。英特尔表示,gaudi 3芯片比英伟达h100训练特定大语言模型的速度快50%。

谷歌专用于训练生成式ai大模型的下一代加速器tpu v5p也通过谷歌云服务上线。微软首款人工智能芯片maia 100预计今年上市。

去年12月,amd推出了mi300人工智能加速器系列产品。其中mi300x拥有1530亿个晶体管,是适用于人工智能计算的高级gpu,专为大语言模型训练而设计,mi300a将图形处理功能与标准中央处理器(cpu)相结合,面向人工智能和科学研究。amd表示,其mi300人工智能加速器正成为其历史上营收增长最快的产品,称其mi300x芯片的推理性能优于英伟达h100。

“谷歌的tpu已经迭代到了第五代,展现出了非常强大的芯片开发能力,并且结合自己对业务线的理解,能够定义出效率更高的产品。”耀途资本执行董事于光日前对澎湃科技(www.thepaper.cn)评价说。至于英伟达的追赶者amd也是一个大玩家,amd作为一个老牌的cpu和gpu厂商,过去在服务器cpu领域形成了追赶反超,如今发力ai芯片,是英伟达较为强劲的竞争对手之一。

也有科技投资人对澎湃科技表示,英特尔在ai芯片方面也一直落后于英伟达。

英特尔2019年以来一直在制造gaudi芯片,去年12月在“ai无处不在”(ai everywhere)发布会上发布了gaudi3芯片。但罗森布拉特证券分析师汉斯·莫塞曼(hans mosesmann)表示,“除了英特尔,ai似乎无处不在。”英国投资服务机构aj bell投资总监拉斯·莫尔德(russ mould)则表示,随着英伟达和amd等公司的芯片在ai行业发挥越来越重要的作用,英特尔有被甩在后面的危险。

“英伟达的技术、产品和业务处于竞争最为激烈的领域,其特点是技术变革迅速和行业标准不断发展。”深圳中欧基金投资有限公司(即“中欧资本”)董事长张俊对澎湃科技(www.thepaper.cn)表示,未来竞争将更加激烈,竞争来自现有竞争对手和新市场进入者。尤其是新进入者,也是潜在颠覆者。

与其等待大公司犯错,不如创新

英伟达的ai芯片已经成为硬通货。

于光表示,英伟达在ai芯片上的布局深厚,产品适配灵活。“上一波ai浪潮中,出现了各种创新架构的ai芯片玩家,试图颠覆英伟达,但是都没有取得很广泛的成功。最后还是英伟达最先赶上了大模型这波机会。”从这一波浪潮来看,已经有很多玩家希望去做针对当前大模型更加优化的ai芯片,但要说颠覆,依然很难。目前来看,ai企业还无法摆脱英伟达这个角色,“基本上还得依赖英伟达的gpu芯片乃至整体解决方案。”

“从来没有哪一个领域的芯片有今天ai芯片这么大的市场,大到夸张。”国产gpu行业资深人士薛翔告诉澎湃科技(www.thepaper.cn),“芯片行业有一个说法,一个领域的芯片,只能有两家公司活得很好,第一家占80%市场份额,第二家占20%。”

过去,英特尔的cpu市场大,但单价低;而英伟达h100芯片单价超过了20万元人民币。特斯拉ceo马斯克曾透露,特斯拉今年仅在英伟达ai芯片上就要花5亿美元。这看似是一笔巨款,但实际上只相当于大约1万块h100。“很多公司发现,一年买10万张英伟达的加速卡,成本一点也不划算,不如养一个团队自己研发。”薛翔说,这是一个商业选择。

正如meta斥资数十亿美元购买英伟达和其他公司的人工智能芯片,面对不断膨胀的算力需求,meta走上自研之路,减少对英伟达的依赖,降低成本。chatgpt之父、openai首席执行官山姆·奥特曼也在拉拢中东投资者和芯片制造商,欲筹数十亿美元建芯片公司,构建半导体工厂网络。日本软银集团创始人兼首席执行官孙正义则计划为ai芯片企业筹资1000亿美元,与英伟达竞争。

科技巨头的容错能力强,每一次科技领域的革命并不源于大公司犯错,而是源于一项新兴技术的快速崛起。“老公司的退潮和新公司的崛起都是时代变化所致。”薛翔说,在芯片领域,也许未来会出现适用于大模型的更专用的芯片,而带来这一革命的也许是一家没有历史包袱的新兴公司。所以,与其等待大公司犯错,不如自我创新。

但于光认为,在国外的芯片创新生态里,创业公司很难颠覆芯片巨头。不同于大模型的快速迭代,ai芯片开发周期长,人力、物力投入大。“创业型ai芯片公司可以通过芯片架构的创新获得融资,然后迭代出前面几代产品,最后的路径有可能还是被那些大厂收购,因为真正到工程量产和商业化阶段,大厂更有优势。”

开发ai芯片不能仅盯算力性能

以大模型为代表的人工智能技术突飞猛进,算力需求激增,升级芯片成为必然。薛翔表示,英伟达等国外科技大厂自a100芯片后“刹不住车”,开发的芯片“一代更比一代强”,性能遥遥领先。“现在相当于在直道上开赛车,芯片生产技术和集群技术没有达到物理瓶颈之前,沿着这条路往前面跑可以跑得很快,两三代产品迭代以后会带来非常大的差距。”但薛翔表示,这是正常现象,不需要过于担忧。

目前gpu的存储性能和算力共同决定了大模型的推理速度。但薛翔表示,当前大模型的使用场景对模型生成速度要求并没有那么高。所以用ai芯片做单卡大模型推理时,瓶颈主要在存储。

于光表示,前几年的ai浪潮中,谷歌、meta等科技巨头根据自身业务需求自研ai定制芯片。如今大模型带来ai迅速变革,这些玩家如何将ai芯片适配当前的大模型算法是共同面对的话题。他同样认为,开发ai芯片不能仅仅盯着算力性能,存储和互联是ai芯片需要解决的问题。

一方面,大模型参数多,需要大容量的存储空间,目前看起来需要塞下这么大的模型必须要用到hbm(一款新型的cpu/gpu内存芯片)。另一方面,数据需要从hbm高速传递给gpu的计算die(没有封装的裸片), gpu之间需要高速互联例如nvlink(英伟达开发并推出的一种总线及其通信协议)和nvswitch(英伟达的一种高速交换机技术)来实现高速通信,以及需要更上层的高速组网方式形成计算集群。于光表示。

再者,在薛翔看来,无限制堆参数和芯片更应该是一种科研行为而非应用行为,“那么大的模型运行一次很贵,并不符合商业逻辑。”反观当下,“有一个概念叫ai infra(人工智能基础设施),基于现有大模型优化硬件和模型,目的是提高效率。”薛翔估计,“优化算力使用效率,优化模型结构,不用堆那么多参数,如果每一个方面都能节省20%,整体可以节省50%多的成本。”

深圳元始智能有限公司(即“rwkv元始智能”)首席运营官罗璇对澎湃科技(www.thepaper.cn)表示,中国大部分模型基于低计算效率的开源模型进行微调或重训练,大部分模型类似于meta的llama2模型。这是一个基于transformer架构的大语言模型,从第一性原理角度看,transformer复杂度过高,算力需求大,未来多智能体、具身智能、世界模型的开发将受限于计算复杂度。这也导致大模型企业被英伟达的gpu“卡脖子”,另一方面英伟达芯片以10倍定价出售,“这是一个非常不正常的算力成本。”

transformer架构和芯片卡住了大模型商业落地和前端研究,罗璇认为一定要找到新的架构,企业才能跑出pmf(产品市场匹配度)。另一方面,“一定不要买高溢价的算力,大部分的钱是被英伟达赚走的。我们认为接下来会有新的算力把成本打到现在的1/10甚至1%。”站在芯片使用者的角度,罗璇表示,目前国产算力还不够便宜,如何把训练和推理成本降下来,是国产芯片要解决的问题。