百科问答小站 logo
百科问答小站 font logo



如何评价英伟达于 GTC 2021 大会发布的基于 ARM 架构的 Grace CPU? 第1页

  

user avatar   xia-jing-jing-57 网友的相关建议: 
      

憋、憋、憋不住了。


本来不想说啥,但是今天看见很多答题家一本正经地胡说八道,实在有点受不了了。

我觉得很多人根本没有看老黄的keynote演讲,也许就看了些中文的新闻稿就开始发挥……

老黄的每年的演讲要认真看的,君不见他都学会渲染自己了,明年可能会加瘦脸效果。

好,认真的,老黄语速很快,而很多信息隐藏在几个关键词里,一不注意就遗漏了,得开字幕……

………………………………

第一点,grace不是高性能CPU,我看见知乎居然有人拿去和APPLE的M1 core做比较,也是服了。

下面这张图,老黄表达得很清晰(轻微笑场了)。最左上的是高性能server CPU,单核强,核少,它所以画了四个大方块表达。至于AI需要的CPU需要次强的CPU,中下的9个小方块的。要更多核,更强的memory和更强的IO能力,这是设计理念,grace也是如此做的。当然,老黄暗示这种需求和HPC(最右)是一致的,这主要是他要卖20E FLOPS AI HPC,忽悠客户呢。实际上我们打开INTEL的HPC version CPU型号,并不是如此。

OK,grace是为AI而生,并不是高性能。它用的CPU core型号是公版neoverse N2,ARM还没发布,可能NVIDIA已经拿到了beta版本。N series在ARM的CPU属于中核,讲究能效,如下所示,V系列才是大核,而APPLE的M1,更在V series之上,超大核。

so,grace是一个76 cores N2多核处理器(为什么是76 cores? 哈哈请认真看图啦,虽然芯片是示意图,但nvidia在示意的意上,往往都很准确)。specint2017是300分,这个分数真心不算高,grace的理念应该是性能还行,能效优异,把散热的空间更多让给hopper。单说300分的性能,这两年新出的ARM Server CPU都会超过它,当然我菊没法投片加工了,我只能云装逼一下,唉,随意吧。

……………………

第二点,grace用了LPDDR,这在第一眼看到的时候,让人非常不解,以至于直接给出了结论,这GRACE架构师傻逼吧,8颗LPDDR,即使按明年的容量算,也就8*16GB=128GB,这要做推荐网络根本不可行,embedded table装不下。但如果认真听完老黄的全部逻辑,make sence。

首先,CPU用DDR也是可以做到500GB带宽的,但这需要12 channel DDR DIMM(5200*12*8)。但DRAM的世界是一个等价交换的世界。见我曾经一个帖子。

LPDDR相比DDR,虽然容量少了,但是在同样500GB带宽条件下,封装尺寸、成本、单板集成度会大幅提升。只需要解决容量问题,那么LPDDR就是赚的。

怎么解决? 老黄的野路子是集成8个grace CPU,并互联成unified memory。此时8*128=1TB。虽然说也不是很大,但已经等价于用X86的2S结构,512GB per socket的1TB容量了,且GPU对延迟不敏感,只要能解决互联问题, 真的完美。

………………

第三点,互联。

很多人其实对下图的2000GB MEM-to-GPU带宽很不解,如果用左图的互联拓扑,卧槽,这grace得多少lane的nvlink才够用啊。要知道,从示意图来看,参考GPU尺寸是55mm*55mm,grace芯片尺寸大约是60mm*60mm,pitch应该是0.6~0.7mm,去掉8路LPDDR剩下的pin不够的。

这是因为,这个图的拓扑结构依旧是逻辑示意图。

老黄讲了,最终DGX是8个grace CPU +8个hopper GPU,上图的4+4最多是一个half DGX版本。

而grace和hopper,我们再看看下图的单板示意,1+1单板,两者之间的互联在板上解决了,然后grace向左,hopper向右和上,各自出4路/7路 nvlink。

所以,最终的互联是我画的下面这个样子。hopper侧(右侧)的lane和switch应该更多些,我懒得画了。


……………………

其实还有一些次要信息,不写了不写了。夜已深,夫人亦睡了,不可辜负王者新赛季上分的宝贵时光。


user avatar   hou-yu-75-61 网友的相关建议: 
      

这是NV的“自救”

Intel和AMD都在形成自己的完整的计算体系,自己的CPU+自己的GPU+自己的FPGA等,且所用的互联也要么是只支持自己产品的,要么是open标准的(e.g. CCIX, CLX),反正不支持nvlink

IBM也不再支持nvlink (power10不支持nvlink)

NV也是没有别的办法,只能自己玩一套了 (或者回归open标准)


另外,在传统的HPC场景,鉴于美国的3台E级超算没有一台用NV的产品,都是AMD或intel全家桶,我国的就更别说了,小日本的和欧盟的目前看也没有规划NV,所以NV能怎么办?

最后,AI场景,大公司也是慢慢的走自研体系,未来都是提供成套解决方案的(自研AI加速器+自研ARM),所以NV能怎么办?


user avatar   liu-dong-zhu-8 网友的相关建议: 
      

说实话这是cpu自诞生以来被黑的最惨的一次,因为这个cpu架构完全是为了gpu服务的,cpu的存在就是让gpu随心所欲access memory, 占用system resources, 针对的也是dl的workload, 只能说在当下是一个极限的dnn炼丹machine。不过一般的data center也不需要这么高的并行度,看起来并不会对 Intel Xeon造成太大威胁。比较适用于大规模的ML。


user avatar   maomaobear 网友的相关建议: 
      

意料之中,上次nvidia说要收购arm的时候,我已经预料到这种产品了。


现在PC的架构,是英特尔说了算,nvlink性能很优越,但是只有IBM跟了一次。,

nvidia不爽intel很久了。

现在的GPU,实际上带图形功能的并行计算机。

算并行任务,CPU反而只是个控制器。

但是英特尔掌控平台,nvidia甩不掉英特尔的标准。

早在多年前,nvidia做过丹佛。

那个东西,其实内部是自己的一套指令集,可以翻译ARM和X86。但是没多少人用。

ARM做到A76的时候,IPC已经可以上桌面了。

linux对ARM的支持也越来也好,亚马逊已经开始大量部署ARM服务器来降低成本。

苹果转ARM以后,微软会更努力,可以预见ARM的生态会越来越好。

这个时候,nVIDIA可以尝试摆脱英特尔的束缚,自己搞一套体系。

nVIDIA自己有最快的互联,它对显存标准制订举足轻重。

它缺CPU,但是ARM卖IP

即使没有收购成功,也不耽误nVIDIA用ARM的技术。在nVIDIA掌握AI计算大部分市场份额的时候,它是有话语权的。

苹果掌握桌面出版的份额,它能换好几次指令集。现在nVDIA也有这个地位了。

现在英特尔造显卡,试图抢回来AI计算的市场,AMD也咄咄逼人。

nVIDIA没有x86的CPU,赌一下ARM的生态是一条路。

其实,黄教主可以考虑一下普及的问题。

小批量,不进民用的东西必然是贵。

这类东西可以做低端版本屏蔽,来降低成本。

大芯片太贵,可以用小芯片堆

小芯片还可以屏蔽,做成低端芯片,用到别的设备上。

如同我在2020年8月写过的


二、nVIDIA收购ARM的发展

收购之后,nVIDIA很可能会提供完整的CPU核心加GPU加速的完整方案。用户用nVIDIA的方案,就可以直接做大规模计算,而且有垄断性。

对业界来说,ARM的技术和nVIDIA的技术结合很有想像空间。

图形方面,估计nVIDIA看不上ARM的mali,如果nVIDIA发力,把公版架构的CPU和GPU搞上去。很可能苹果的A系列处理器反而不如ARM公版处理器快。

而且未来手机SOC用公版授权,很可能直接支持通用计算,支持人工智能计算,用GPU算个人工智能,不用单独的人工智能模块了。

在高性能计算领域,nVIDIA可以搞个人工智能计算卡,用强大的ARM指令集CPU核心和GPU核心,共用超大带宽的HBM2内存,直接在linux(也许未来还会有ARM版本的Windows)下跑人工智能计算。

nVIDIA在2020年还收购了Mellanox最先进的InfiniBand和以太网互连解决方案。nVIDIA还有自己的NVLink,这意味着最快的通信互联。

这些技术集成,会制造出性能怪兽,一片单卡直接跑操作系统和高性能计算,各个单卡之间用高速互联,构成超级计算机。

而且,这些单卡还能上安卓,直接跑王者荣耀……

从手机,家庭游戏机,到桌面PC,到图形工作站,到

人工智能计算集群,到超级计算机,nVIDIA可以一套体系通吃下来。这是好消息。

但不好的消息是,以nVIDIA的作风,它家的东西绝不会便宜。而且刀法精湛,你花多少钱就给你多少性能,绝不存在物超所值的问题。

以后,ARM授权,GPU的授权,价格可能会涨,这是坏消息。




  

相关话题

  为什么台式机CPU还没有整合芯片组(南桥)? 
  怎么看手机cpu处理器好坏,不要评测跑分的,请问如何通过处理器名称看架构的好坏? 
  神经网络分类训练后得到的是连续的数怎么离散? 
  为什么现在的芯片公司都在急需做编译器的人?这个职位是要去解决什么样的问题? 
  请问应该怎样去学习图像识别和深度学习? 
  为什么DDR5对CPU性能影响几乎不计价格还那么高? 
  如何评价各种关联因素分析算法,尤其是在算法效果对比方面? 
  如何理解压缩感知(compressive sensing)? 
  神经网络中 warmup 策略为什么有效;有什么理论解释么? 
  一个CPU内核包含几个加法器? 

前一个讨论
[如图] 请问这种程度的IPS面板漏光是否需要申请售后?
下一个讨论
为什么鸿蒙系统的默认西文字体沿用了 Google 为 Android 设计的 Roboto?





© 2025-01-18 - tinynew.org. All Rights Reserved.
© 2025-01-18 - tinynew.org. 保留所有权利