憋、憋、憋不住了。
本来不想说啥,但是今天看见很多答题家一本正经地胡说八道,实在有点受不了了。
我觉得很多人根本没有看老黄的keynote演讲,也许就看了些中文的新闻稿就开始发挥……
老黄的每年的演讲要认真看的,君不见他都学会渲染自己了,明年可能会加瘦脸效果。
好,认真的,老黄语速很快,而很多信息隐藏在几个关键词里,一不注意就遗漏了,得开字幕……
………………………………
第一点,grace不是高性能CPU,我看见知乎居然有人拿去和APPLE的M1 core做比较,也是服了。
下面这张图,老黄表达得很清晰(轻微笑场了)。最左上的是高性能server CPU,单核强,核少,它所以画了四个大方块表达。至于AI需要的CPU需要次强的CPU,中下的9个小方块的。要更多核,更强的memory和更强的IO能力,这是设计理念,grace也是如此做的。当然,老黄暗示这种需求和HPC(最右)是一致的,这主要是他要卖20E FLOPS AI HPC,忽悠客户呢。实际上我们打开INTEL的HPC version CPU型号,并不是如此。
OK,grace是为AI而生,并不是高性能。它用的CPU core型号是公版neoverse N2,ARM还没发布,可能NVIDIA已经拿到了beta版本。N series在ARM的CPU属于中核,讲究能效,如下所示,V系列才是大核,而APPLE的M1,更在V series之上,超大核。
so,grace是一个76 cores N2多核处理器(为什么是76 cores? 哈哈请认真看图啦,虽然芯片是示意图,但nvidia在示意的意上,往往都很准确)。specint2017是300分,这个分数真心不算高,grace的理念应该是性能还行,能效优异,把散热的空间更多让给hopper。单说300分的性能,这两年新出的ARM Server CPU都会超过它,当然我菊没法投片加工了,我只能云装逼一下,唉,随意吧。
……………………
第二点,grace用了LPDDR,这在第一眼看到的时候,让人非常不解,以至于直接给出了结论,这GRACE架构师傻逼吧,8颗LPDDR,即使按明年的容量算,也就8*16GB=128GB,这要做推荐网络根本不可行,embedded table装不下。但如果认真听完老黄的全部逻辑,make sence。
首先,CPU用DDR也是可以做到500GB带宽的,但这需要12 channel DDR DIMM(5200*12*8)。但DRAM的世界是一个等价交换的世界。见我曾经一个帖子。
LPDDR相比DDR,虽然容量少了,但是在同样500GB带宽条件下,封装尺寸、成本、单板集成度会大幅提升。只需要解决容量问题,那么LPDDR就是赚的。
怎么解决? 老黄的野路子是集成8个grace CPU,并互联成unified memory。此时8*128=1TB。虽然说也不是很大,但已经等价于用X86的2S结构,512GB per socket的1TB容量了,且GPU对延迟不敏感,只要能解决互联问题, 真的完美。
………………
第三点,互联。
很多人其实对下图的2000GB MEM-to-GPU带宽很不解,如果用左图的互联拓扑,卧槽,这grace得多少lane的nvlink才够用啊。要知道,从示意图来看,参考GPU尺寸是55mm*55mm,grace芯片尺寸大约是60mm*60mm,pitch应该是0.6~0.7mm,去掉8路LPDDR剩下的pin不够的。
这是因为,这个图的拓扑结构依旧是逻辑示意图。
老黄讲了,最终DGX是8个grace CPU +8个hopper GPU,上图的4+4最多是一个half DGX版本。
而grace和hopper,我们再看看下图的单板示意,1+1单板,两者之间的互联在板上解决了,然后grace向左,hopper向右和上,各自出4路/7路 nvlink。
所以,最终的互联是我画的下面这个样子。hopper侧(右侧)的lane和switch应该更多些,我懒得画了。
……………………
其实还有一些次要信息,不写了不写了。夜已深,夫人亦睡了,不可辜负王者新赛季上分的宝贵时光。
这是NV的“自救”
Intel和AMD都在形成自己的完整的计算体系,自己的CPU+自己的GPU+自己的FPGA等,且所用的互联也要么是只支持自己产品的,要么是open标准的(e.g. CCIX, CLX),反正不支持nvlink
IBM也不再支持nvlink (power10不支持nvlink)
NV也是没有别的办法,只能自己玩一套了 (或者回归open标准)
另外,在传统的HPC场景,鉴于美国的3台E级超算没有一台用NV的产品,都是AMD或intel全家桶,我国的就更别说了,小日本的和欧盟的目前看也没有规划NV,所以NV能怎么办?
最后,AI场景,大公司也是慢慢的走自研体系,未来都是提供成套解决方案的(自研AI加速器+自研ARM),所以NV能怎么办?
说实话这是cpu自诞生以来被黑的最惨的一次,因为这个cpu架构完全是为了gpu服务的,cpu的存在就是让gpu随心所欲access memory, 占用system resources, 针对的也是dl的workload, 只能说在当下是一个极限的dnn炼丹machine。不过一般的data center也不需要这么高的并行度,看起来并不会对 Intel Xeon造成太大威胁。比较适用于大规模的ML。
意料之中,上次nvidia说要收购arm的时候,我已经预料到这种产品了。
现在PC的架构,是英特尔说了算,nvlink性能很优越,但是只有IBM跟了一次。,
nvidia不爽intel很久了。
现在的GPU,实际上带图形功能的并行计算机。
算并行任务,CPU反而只是个控制器。
但是英特尔掌控平台,nvidia甩不掉英特尔的标准。
早在多年前,nvidia做过丹佛。
那个东西,其实内部是自己的一套指令集,可以翻译ARM和X86。但是没多少人用。
ARM做到A76的时候,IPC已经可以上桌面了。
linux对ARM的支持也越来也好,亚马逊已经开始大量部署ARM服务器来降低成本。
苹果转ARM以后,微软会更努力,可以预见ARM的生态会越来越好。
这个时候,nVIDIA可以尝试摆脱英特尔的束缚,自己搞一套体系。
nVIDIA自己有最快的互联,它对显存标准制订举足轻重。
它缺CPU,但是ARM卖IP
即使没有收购成功,也不耽误nVIDIA用ARM的技术。在nVIDIA掌握AI计算大部分市场份额的时候,它是有话语权的。
苹果掌握桌面出版的份额,它能换好几次指令集。现在nVDIA也有这个地位了。
现在英特尔造显卡,试图抢回来AI计算的市场,AMD也咄咄逼人。
nVIDIA没有x86的CPU,赌一下ARM的生态是一条路。
其实,黄教主可以考虑一下普及的问题。
小批量,不进民用的东西必然是贵。
这类东西可以做低端版本屏蔽,来降低成本。
大芯片太贵,可以用小芯片堆
小芯片还可以屏蔽,做成低端芯片,用到别的设备上。
如同我在2020年8月写过的
二、nVIDIA收购ARM的发展
收购之后,nVIDIA很可能会提供完整的CPU核心加GPU加速的完整方案。用户用nVIDIA的方案,就可以直接做大规模计算,而且有垄断性。
对业界来说,ARM的技术和nVIDIA的技术结合很有想像空间。
图形方面,估计nVIDIA看不上ARM的mali,如果nVIDIA发力,把公版架构的CPU和GPU搞上去。很可能苹果的A系列处理器反而不如ARM公版处理器快。
而且未来手机SOC用公版授权,很可能直接支持通用计算,支持人工智能计算,用GPU算个人工智能,不用单独的人工智能模块了。
在高性能计算领域,nVIDIA可以搞个人工智能计算卡,用强大的ARM指令集CPU核心和GPU核心,共用超大带宽的HBM2内存,直接在linux(也许未来还会有ARM版本的Windows)下跑人工智能计算。
nVIDIA在2020年还收购了Mellanox最先进的InfiniBand和以太网互连解决方案。nVIDIA还有自己的NVLink,这意味着最快的通信互联。
这些技术集成,会制造出性能怪兽,一片单卡直接跑操作系统和高性能计算,各个单卡之间用高速互联,构成超级计算机。
而且,这些单卡还能上安卓,直接跑王者荣耀……
从手机,家庭游戏机,到桌面PC,到图形工作站,到
人工智能计算集群,到超级计算机,nVIDIA可以一套体系通吃下来。这是好消息。
但不好的消息是,以nVIDIA的作风,它家的东西绝不会便宜。而且刀法精湛,你花多少钱就给你多少性能,绝不存在物超所值的问题。
以后,ARM授权,GPU的授权,价格可能会涨,这是坏消息。