总结概括下:老黄丧心病狂,GPU的竞争已经进入到了下一个纪元。
首先我们要明确一下,老黄的全新核心是为计算而生的,而不是为了游戏而生,不要用游戏的眼光看待这回的全新核心。由于才刚刚发布,所以简单说几个厉害的地方。
【核心】
这回GA100采用台积电的N7工艺制造,有着高达826mm2的核心面积和542亿的晶体管,400W TDP,真真真是一个恐怖的核弹,不用看规格也知道这是如何丧心病狂了,如此奢华的晶体管下必然有着令人窒息的性能。800多的面积,这不是小打小闹啊,这算是摸着台积电的极限走了。
由于面积真的非常高,作为GA100的首发产品A100,并不是完整的规格,不过也已经很丧心病狂了。
大概来说目前上市的A100阉割了1/8的计算资源,以及1/6的显存资源,后期等着良品率上去了后,我们应该可以看到更加完整的GA100核心。不过别看这回晶体管那么多,其实GA100但从核心数上来说提升不是很大,GA100对比GV100也就是多了30%+的SM而已,不过请记住刚刚说的这回GA100的重点并不是游戏性能,只看核心数,只看传统FP32 64性能就太Naive了。
【性能】
Nvidia Ampere的重点是AI性能,其改进的重点是Tensor Core。因此如果只是看游戏玩家最爱的FP32和传统的FP64性能,其实FP32和FP64只是提升了25%而已(SM更多但是频率更低),FP16性能多一些到了2.5X。
但如果你看AI性能就会发现一切不一样了,Nvidia首先大幅改进了TensorCore,使其支持了TF32 TF64 还改进了INT 8 FP6的支持,作为结果,16/32/64的Tensor性能分别提升了2.5X,10X,和2.5X。 FP32是目前深度学习训练和推理中用的最多的一个格式了,10倍是啊!此外在低精度场景中,INT8也非常常见,GA100提升了10倍(由于支持完善)。而在更极端的场合,INT4和二值化的 INT1,则是分别对INT8提升到了2X和8X,颤抖吧4992T的性能(5P!)。
精彩还没结束,这回Nvidia对于稀疏数据增加了优化,如果遇上稀疏数据操作,性能可以再度翻倍,比如FP32翻倍到了20倍。
【实际性能】
也不要光说不练,来看看实际性能。 做AI、NLP的同学对BERT一定不陌生,那个改变了NLP的预练语言模型,并由此掀起了腥风血雨。BERT性能非常牛,但问题是其训练和推理开销都不是一般研究机构、公司可以承担的,模型太复杂、参数太多。
用上了GA100后,训练性能直接翻了6倍(FP32)或者3倍(FP16),推理性能提升了7倍。这意味着只要买了GA100后,很多机构也能自己训练了,原来XX周变成了XX天,可怕至极。可想而知,GA100上市后,类似BERT的各种超级庞大模型又可以继续堆参数堆结构了,对AI领域有核弹级的影响。
在传统的高性能计算领域,主要依靠原始的FP32 64性能,这时候虽然没有AI那么凶猛,但是提升1.5X~1.9X后,依旧还是HPC的最强计算GPU。
【小结】
如果你去看FP32和FP64的原始性能,真没什么出彩的地方,那么大面积那么高功耗才20T的FP32。 但是这真的大错特错,GA100是面向AI的,对于AI炼丹师会有质的帮助。
Nvidia的GA100根本不准备和AMD争夺游戏市场,玩FP32数字游戏,其面向更大的一个市场。对于传统游戏用户、HPC用户来说,这些Tensor可能是电炉丝,不过也不用担心,Nvidia肯定会有后手的,比如GA101 GA102,这些会砍了一些Tensor拿去堆FP32/64性能或缩小面积。
看到Nvidia在AI市场上那么用心,不禁担心其AMD能不能追上来,AMD在这块真的很欠缺,这不仅是硬件上的差距,还有软件生态上的差距。如果说GA100最大的对手会是谁,我想下一个有机会成为对手的是Intel 2021年末的Xe HPC PVC卡,Intel今年在计算、AI上的积累也是非常深厚,还有传说中的OneAPI~~ 虽然游戏卡不行,但这个真不能小视,希望Intel 7nm别延迟了。