如何评价英伟达于 GTC 2021 大会发布的基于 ARM 架构的 Grace CPU？第1页

xia-jing-jing-57 网友的相关建议:

憋、憋、憋不住了。

本来不想说啥，但是今天看见很多答题家一本正经地胡说八道，实在有点受不了了。

我觉得很多人根本没有看老黄的keynote演讲，也许就看了些中文的新闻稿就开始发挥……

老黄的每年的演讲要认真看的，君不见他都学会渲染自己了，明年可能会加瘦脸效果。

好，认真的，老黄语速很快，而很多信息隐藏在几个关键词里，一不注意就遗漏了，得开字幕……

………………………………

第一点，grace不是高性能CPU，我看见知乎居然有人拿去和APPLE的M1 core做比较，也是服了。

下面这张图，老黄表达得很清晰(轻微笑场了)。最左上的是高性能server CPU，单核强，核少，它所以画了四个大方块表达。至于AI需要的CPU需要次强的CPU，中下的9个小方块的。要更多核，更强的memory和更强的IO能力，这是设计理念，grace也是如此做的。当然，老黄暗示这种需求和HPC(最右)是一致的，这主要是他要卖20E FLOPS AI HPC，忽悠客户呢。实际上我们打开INTEL的HPC version CPU型号，并不是如此。

OK，grace是为AI而生，并不是高性能。它用的CPU core型号是公版neoverse N2，ARM还没发布，可能NVIDIA已经拿到了beta版本。N series在ARM的CPU属于中核，讲究能效，如下所示，V系列才是大核，而APPLE的M1，更在V series之上，超大核。

so，grace是一个76 cores N2多核处理器(为什么是76 cores? 哈哈请认真看图啦，虽然芯片是示意图，但nvidia在示意的意上，往往都很准确)。specint2017是300分，这个分数真心不算高，grace的理念应该是性能还行，能效优异，把散热的空间更多让给hopper。单说300分的性能，这两年新出的ARM Server CPU都会超过它，当然我菊没法投片加工了，我只能云装逼一下，唉，随意吧。

……………………

第二点，grace用了LPDDR，这在第一眼看到的时候，让人非常不解，以至于直接给出了结论，这GRACE架构师傻逼吧，8颗LPDDR，即使按明年的容量算，也就8*16GB=128GB，这要做推荐网络根本不可行，embedded table装不下。但如果认真听完老黄的全部逻辑，make sence。

首先，CPU用DDR也是可以做到500GB带宽的，但这需要12 channel DDR DIMM(5200*12*8)。但DRAM的世界是一个等价交换的世界。见我曾经一个帖子。

LPDDR相比DDR，虽然容量少了，但是在同样500GB带宽条件下，封装尺寸、成本、单板集成度会大幅提升。只需要解决容量问题，那么LPDDR就是赚的。

怎么解决？老黄的野路子是集成8个grace CPU，并互联成unified memory。此时8*128=1TB。虽然说也不是很大，但已经等价于用X86的2S结构，512GB per socket的1TB容量了，且GPU对延迟不敏感，只要能解决互联问题，真的完美。

………………

第三点，互联。

很多人其实对下图的2000GB MEM-to-GPU带宽很不解，如果用左图的互联拓扑，卧槽，这grace得多少lane的nvlink才够用啊。要知道，从示意图来看，参考GPU尺寸是55mm*55mm，grace芯片尺寸大约是60mm*60mm，pitch应该是0.6~0.7mm，去掉8路LPDDR剩下的pin不够的。

这是因为，这个图的拓扑结构依旧是逻辑示意图。

老黄讲了，最终DGX是8个grace CPU +8个hopper GPU，上图的4+4最多是一个half DGX版本。

而grace和hopper，我们再看看下图的单板示意，1+1单板，两者之间的互联在板上解决了，然后grace向左，hopper向右和上，各自出4路/7路 nvlink。

所以，最终的互联是我画的下面这个样子。hopper侧(右侧)的lane和switch应该更多些，我懒得画了。

……………………

其实还有一些次要信息，不写了不写了。夜已深，夫人亦睡了，不可辜负王者新赛季上分的宝贵时光。

hou-yu-75-61 网友的相关建议:

这是NV的“自救”

Intel和AMD都在形成自己的完整的计算体系，自己的CPU+自己的GPU+自己的FPGA等，且所用的互联也要么是只支持自己产品的，要么是open标准的(e.g. CCIX, CLX)，反正不支持nvlink

IBM也不再支持nvlink (power10不支持nvlink)

NV也是没有别的办法，只能自己玩一套了 (或者回归open标准)

另外，在传统的HPC场景，鉴于美国的3台E级超算没有一台用NV的产品，都是AMD或intel全家桶，我国的就更别说了，小日本的和欧盟的目前看也没有规划NV，所以NV能怎么办？

最后，AI场景，大公司也是慢慢的走自研体系，未来都是提供成套解决方案的(自研AI加速器+自研ARM)，所以NV能怎么办？

liu-dong-zhu-8 网友的相关建议:

说实话这是cpu自诞生以来被黑的最惨的一次，因为这个cpu架构完全是为了gpu服务的，cpu的存在就是让gpu随心所欲access memory, 占用system resources, 针对的也是dl的workload, 只能说在当下是一个极限的dnn炼丹machine。不过一般的data center也不需要这么高的并行度，看起来并不会对 Intel Xeon造成太大威胁。比较适用于大规模的ML。

maomaobear 网友的相关建议:

意料之中，上次nvidia说要收购arm的时候，我已经预料到这种产品了。

现在PC的架构，是英特尔说了算，nvlink性能很优越，但是只有IBM跟了一次。，

nvidia不爽intel很久了。

现在的GPU，实际上带图形功能的并行计算机。

算并行任务，CPU反而只是个控制器。

但是英特尔掌控平台，nvidia甩不掉英特尔的标准。

早在多年前，nvidia做过丹佛。

那个东西，其实内部是自己的一套指令集，可以翻译ARM和X86。但是没多少人用。

ARM做到A76的时候，IPC已经可以上桌面了。

linux对ARM的支持也越来也好，亚马逊已经开始大量部署ARM服务器来降低成本。

苹果转ARM以后，微软会更努力，可以预见ARM的生态会越来越好。

这个时候，nVIDIA可以尝试摆脱英特尔的束缚，自己搞一套体系。

nVIDIA自己有最快的互联，它对显存标准制订举足轻重。

它缺CPU，但是ARM卖IP

即使没有收购成功，也不耽误nVIDIA用ARM的技术。在nVIDIA掌握AI计算大部分市场份额的时候，它是有话语权的。

苹果掌握桌面出版的份额，它能换好几次指令集。现在nVDIA也有这个地位了。

现在英特尔造显卡，试图抢回来AI计算的市场，AMD也咄咄逼人。

nVIDIA没有x86的CPU，赌一下ARM的生态是一条路。

其实，黄教主可以考虑一下普及的问题。

小批量，不进民用的东西必然是贵。

这类东西可以做低端版本屏蔽，来降低成本。

大芯片太贵，可以用小芯片堆

小芯片还可以屏蔽，做成低端芯片，用到别的设备上。

如同我在2020年8月写过的

二、nVIDIA收购ARM的发展

收购之后，nVIDIA很可能会提供完整的CPU核心加GPU加速的完整方案。用户用nVIDIA的方案，就可以直接做大规模计算，而且有垄断性。

对业界来说，ARM的技术和nVIDIA的技术结合很有想像空间。

图形方面，估计nVIDIA看不上ARM的mali，如果nVIDIA发力，把公版架构的CPU和GPU搞上去。很可能苹果的A系列处理器反而不如ARM公版处理器快。

而且未来手机SOC用公版授权，很可能直接支持通用计算，支持人工智能计算，用GPU算个人工智能，不用单独的人工智能模块了。

在高性能计算领域，nVIDIA可以搞个人工智能计算卡，用强大的ARM指令集CPU核心和GPU核心，共用超大带宽的HBM2内存，直接在linux(也许未来还会有ARM版本的Windows)下跑人工智能计算。

nVIDIA在2020年还收购了Mellanox最先进的InfiniBand和以太网互连解决方案。nVIDIA还有自己的NVLink，这意味着最快的通信互联。

这些技术集成，会制造出性能怪兽，一片单卡直接跑操作系统和高性能计算，各个单卡之间用高速互联，构成超级计算机。

而且，这些单卡还能上安卓，直接跑王者荣耀……

从手机，家庭游戏机，到桌面PC，到图形工作站，到

人工智能计算集群，到超级计算机，nVIDIA可以一套体系通吃下来。这是好消息。

但不好的消息是，以nVIDIA的作风，它家的东西绝不会便宜。而且刀法精湛，你花多少钱就给你多少性能，绝不存在物超所值的问题。

以后，ARM授权，GPU的授权，价格可能会涨，这是坏消息。

如何评价英伟达于 GTC 2021 大会发布的基于 ARM 架构的 Grace CPU？的其他答案点击这里

如何评价英伟达于 GTC 2021 大会发布的基于 ARM 架构的 Grace CPU？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价英伟达于 GTC 2021 大会发布的基于 ARM 架构的 Grace CPU？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何评价英伟达于 GTC 2021 大会发布的基于 ARM 架构的 Grace CPU？第1页