相比于「只有」540亿个晶体管的前辈A100,英伟达在H100中装入了800亿个晶体管,并采用了定制的台积电4纳米工艺。
也就是说,H100将具有更好的功率/性能特性,并在密度方面有一定程度上的改进。
在算力上,H100的FP16、TF32以及FP64性能都是A100的3倍,分别为2000 TFLOPS、1000 TFLOPS和60 TFLOPS。
此外,H100还增加了对FP8支持,算力高达4000 TFLOPS,比A100快6倍。毕竟在 这方面,后者由于缺乏原生FP8支持而不得不依赖FP16。
内存方面,H100也将默认支持带宽为3TB/s的HBM3,比A100的HBM2E提升1.5倍。
H100支持的第四代NVLink接口可以提供高达128GB/s的带宽,是A100的1.5倍;而在PCIe 5.0下也可以达到128GB/s的速度,是PCIe 4.0的2倍。
同时,H100的SXM版本将TDP增加到了700W,而A100为400W。而75%的功率提升,通常来说可以预计获得2到3倍的性能。
为了优化性能,Nvidia还推出了一个新的Transformer Engine,将根据工作负载在FP8和FP16格式之间自动切换。
Hopper架构全新的DPX指令,将为动态规划的计算速度带来高达40倍的提升。
在AI训练中,H100可以提供高达9倍的吞吐量。以Megatron 530B为基准,则可以提供16倍至30倍的推理性能。在3D FFT(快速傅里叶变换)和基因组测序等HPC应用中,则可提升6-7倍。
第四代英伟达DGX服务器系统,将世界上第一个采用H100显卡构建的AI服务器平台。
DGX H100服务器系统可提供满足大型语言模型、推荐系统、医疗保健研究和气候科学的海量计算需求所需的规模。
其中,每个服务器系统包含8个H100显卡,通过NVLink链接为单个整体,晶体管总计6400亿个。
在FP8精度下,DGX H100可以提供32 PFLOPS的性能,比上一代高6倍。
此外,每个DGX H100系统还包括两个NVIDIA BlueField-3 DPU,用于卸载、加速和隔离网络、存储和安全服务。
8个NVIDIA ConnectX-7 Quantum-2 InfiniBand网络适配器提供每秒400 Gb的吞吐量来连接计算和存储模块——速度是上一代系统的两倍。
第四代NVLink与NVSwitch相结合,可在每个DGX H100系统中的每个GPU之间提供每秒900 GB的连接,是上一代的1.5倍。
而最新的DGX SuperPOD架构则可连接多达32个节点、总共256个H100显卡。
DGX SuperPOD可提供1 EFLOPS的FP8性能,同样也是前代的6倍。
由576个DGX H100服务器系统和4608个DGX H100显卡组成的「Eos」超级计算机预计将提供18.4 EFLOPS的AI计算性能,比目前世界上最快的超算——日本的「富岳」快4倍。
对于传统的科学计算,Eos有望提供275 PFLOPS的性能。
作为新Hopper架构的一部分,将显著提高AI的性能,大型模型的训练可以在数天甚至数小时内完成。
传统的神经网络模型在训练过程中采用的精度是固定的,因此也难以将FP8应用在整个模型之中。
而Transformer Engine则可以在FP16和FP8之间逐层训练,并利用英伟达提供的启发式方法来选择所需的最低精度。
此外,Transformer Engine可以用2倍于FP16的速度打包和处理FP8数据,于是模型的每一层可以用FP8处理的数据都可以提升2倍的速度。
欢迎关注新智元了解人工智能新动态( ^_^)/
在显卡上扣扣搜搜,在AI上火力全开。
目前最先进的技术,NV能用的全用上,最先进的工艺,最快的互联,最快最宽的储存,最大的规模。
这种怪兽让其他厂商很难追赶。
粗略谈谈三小方面(其他答案已经十分全面透彻)
关于Cloud/IDC能效和机架扩展性:
Hopper H100的TDP 700watt 对应的能效比,在Cloud/IDC的机型多样配比中可能会有约束,除非专门规划AI/HPC集群的需求下才会划分大型液冷Pod,其它情况则可能不容易匹配机型。有些机柜甚至整个DC供电能力可能需要调整满足;比如当年搭载V100的足有10U高度的DGX-2也面临同样问题,供电需求突破了10kW,随后DGX-A100才会克制的降高到6U和6.5kW,且每U的功率密度维持在与DGX 1-2相当的水平。否则机架高度不改造的话,传统风冷方案肯定难以为继,又不可能全中心统一液冷和全部机架近端制冷 …
以及还有一点,除了机架能耗,接口插槽尺寸也是制约机型搭配的因素,虽然可以用PCIe标准卡,但毕竟SXM2才能用NVLink总线互连多卡多U成高速Pod(包括内外可用NVLInk Switch和Mellenox ConnectX/Infiniband背板互连),这是H100的最大效用,从而机架的能效比才会划算,但是有几个IDC常规机架会支持全高外形的SXM2槽位以及如此规格制冷 …?
扩展性的取舍,也是对于Cloud/IDC的挑战,还是对比当年A100的例子:虽然在Scale-up方向所达到的绝对能力上,当年的DGX-A100超出DGX-2,但是在构建更大系统的路线选择上,DGX-A100倾向于Scale-out;如DGX SuperPOD为例,NV官方提到4个工程师仅用1个小时,就能组装一套由20台系统组成的DGX-A100集群,当年2 PFlops的性能足以列入TOP500;以及,如果添加Mellanox InfiniBand交换机层,就可以进一步扩展将14套分别配置有20台DGX A100系统的集群相连接的Selene系统(就是1 EFlops+的AI性能,搭建时间不到1个月);美国阿贡实验室的Selene集群上线就需要重新适配机架并调整IDC整体供电和制冷,所以这种情况对于机架和IDC基层规划能力就提出挑战了。
关于传统HPC任务:
另外,H100的HPC性能亮点其实不多,至少FP32/FP64没有非常出格(相比AMD),虽然SM内ALU密度翻倍了,但就如MebiuW所指出的内存带宽仅提升了约50%;并且CUDA在传统HPC任务中也不算强生态优势(当然如今HPC定义更宽泛了)。
关于Interconnect I/O:
另一个信息点是NV支持了UCIe,但随之又宣布了NVLink的开放(Chip2Chip);理论值说明它的能效相比PCIe Gen5可能高出25X,面积效率高出90X,极致互连带宽甚至标到了900GB/s+的程度。那么设想,未来用到基于NVLink及其SerDers设计出的Chiplets,还会支持AMBA和CXL...,如此就在NV和ARM IP的GPU-DPU-NiC-CPU及SoC之间能够顺利集成并搭建出一致性interconnect I/O。
UCIe或NVLink标准的开放对于Chiplets发展是相当正面的,因为MCM设计往往需要极高互连带宽,以及能效和裸片面效,所以从PCB级集成多die扩展到interposer的物理连接标准,是促进各厂之间封装裸die的基本信用了;同时这样的标准也更容易优化出高带宽、低功耗、高密度、多标准间互操作性的工业化产品。
错峰回答一波,白皮书里的各方面性能数据大家吹得很多了。先贴一个两年前A100发布时候写的一个回答和NV未来发展趋势的预测,基本还是符合预期的。
NV的GPU在DSA的道路上下注得越来越坚定。大家如果看这几年NV的发布会,一般性能要吊打上一代5~10倍这个量级。但如果大家列出这几代芯片的cuda core的数量变化,其实SIMT这条路带来的提升只有2倍左右,性能提升其实越来越倚重DSA。volta架构之前基本沿着SIMT道路扩展。
从volta开始加入tensorcore,属于吃了一口DSA的毒药了,ampere扩展一系列低精度数据格式,搞sparse计算,到hopper搞fp8增强transformer搞dpx,已经到了药不能停的地步。之所以说DSA是毒药,是因为副作用真的很大,我相信每个搞AI芯片的公司都吃过这其中的苦头,那就是软件生态非常难建立。即使NV坐拥cuda生态和巨大的行业号召力,这种毒性也会慢慢发挥作用。我相信很多做NV平台算子开发的朋友都有这样的感觉,v100的tensor core才慢慢开始用起来,a100才刚到货没多久,sparsity之类的特性软件整体也还没来得及去适配,现在h100又整出来一堆新东西,外部软件团队其实是很难跟上这个节奏的。这会慢慢导致NV的生态变得和各个AI公司一样,靠NV内部力量去搞,但自己玩那还叫“生态”吗?一方面外部团队很难跟上NV的变化去建设生态,另一方面外部团队也会充满强烈的不安全感,今天老黄把transformer搞了,明天会不会把我的一亩三分地也给收割了?
这种毒性会慢慢损伤NV自己的生态,除非NV在构建一套新的生态来革了cuda生态的命。虽然我是个十足的N吹,但在这一块,我确实还没看到NV有所布局,而且NV在DSA的吃法属实有点过于变态。我之前写过一系列文章试图为大家构建一个DSA构建稳定生态和演进空间的可能性,实现DSA的无毒化烹饪,以此来对抗NV强大的SIMT生态。
但NV目前在DSA上的吃法都是属于完全无法做到软件透明的,尤其是ampere和hopper引入的这些DSA特性,无论用什么样的系统和软件栈设计也兜不住的。这在我上面这个系列的文章里抛出的方案也兜不住的DSA,实在是过于变态。最终的算法用户必须根据NV的特性特点去改造算法才能用上这些特性。作为一个N吹,虽然我也想辩解说NV敢这么做一定说明这种改动大概率在算法层面是可行的,但站在一个搞系统和架构的人角度,我还是觉得这种做法毒性属实过大。当然了,以NV当前的号召力,也没准能把这些新特性中的一部分变成事实的算法标准。
很多朋友喜欢摸着NV过河,觉得NV几乎把各种路都走了一遍,让大家无路可走,有点绝望。实际上我倒是反而觉得老黄这一口毒药吃得倒是暴露出了一定弱点,是广大AI厂商的机会,DSA的核心竞争力一定是软件生态的建设,不搞好就是毒药,显然现在NV也没有办法。
这里我再多说两句,很多朋友对生态的理解还是把硬件包得足够好用,把更多已有的软件对接过来。这样做当然也没错,但背后都是面向客户的生态建设,而不是面向开发者的生态建设。大家可以想一个简单的问题,如果各家AI芯片厂商可以穿越到2012年,AI的软件和生态还是一片蛮荒的时代,你们会怎么建设软件生态?NV没有选择做一个大而全的框架,NV只是在到处送卡和推广cuda。上面的深度学习框架一轮又一轮,你方唱罢我登场,cuda在下面稳如泰山。以NV的实力,做一个深度学习框架根本不是什么难事,想通过造一个大而全的软件框架保姆式地伺候最终的算法客户其实很难拿到软件生态,生态建设是需要遵循着面向开发者的原则展开。当然,在cuda已经成为事实上标准的情况下,NV才开始了如今的收割模式,以cuda为大本营大规模建设软件解决方案,面向客户开始收割各种垂直场景。
虽然2012年已经过去十年,SIMT的机会完全被cuda占据了,但DSA目前其实还是一片蛮荒,即使NV如此下注DSA,其实也还没拿出一套生态建设思路。我们其实完全可以好好学习一下cuda是如何在多核cpu几十年成熟的软件生态下大开局面的,希望大家好好把握机会(逃
当然,除了这些非常变态的DSA变化外。NV也一直在致力于将通用的cuda编程变得异步化,比如之前增加独立pc,比如这次TMA的引入,以及编程模型中block cluster的引入。这部分仍然是强大的SIMT生态的范畴,逐渐微调cuda的编程模型,逐渐暴露更多硬件细节出来,同时做一定的抽象,这些方面其实能感受到NV在这方面做得相当克制。当然了,这些微调一方面可以说增加了写cuda算子的难度,另一方面也可以说增加了更多卷的机会。有人喜欢有人喷,仁者见仁,智者见智。
我个人还是比较喜欢这一类调整的,相比很多AI芯片非常粗放地把硬件约束暴露上来,NV在cuda上的打磨我觉得还是相当精细的,编程模型一方面没有做得太复杂,但又足够把硬件用好的机会呈现出来,并且给未来很多代芯片进一步演进保留一定空间。这种软硬件分赃的刀工还是非常了得的。
这里我也不妨多说几句,我之前跟很多写cuda算子的朋友一起吹NV,我发现大家受cuda编程模型的影响,常常会一定程度上“忘记”硬件memory wall的各种问题。很多在别的架构上看起来非常蛋疼的问题似乎挪到cuda下面就不那么严重了,实际上NV GPU在整个memory通路上用了很多代价给cuda营造出来的这种假象,比如memory coalescing、大量sm访存的分发、冲突等问题。但这些问题确实硬件处理会更好,软件处理很容易出现舍近求远的各种奇葩情形。这些隐藏在cuda后面处理memory wall的各种机制也是NV在GPU硬件设计上非常核心的竞争力。在软硬件架构设计上的把控能力其实就是体现在这里,到底什么暴露给软件什么由硬件抗,cuda的竞争力其实就在这里。
MIG这一块这次的h100也得到了增强,之前写的a100的回答里也提到了,个人觉得这一块老黄是在dsa形态的gpu铺路,通过虚拟化让云上不同的workload能够把同一个gpu的不同dsa模块都充分利用起来,同时又保持一个干净的软件界面,可以继承现有针对单GPU的软件生态。当然现阶段还是硬分配,未来我相信一定会有类似超线程的超卖机制,一个GPU虚拟成若干个GPU实例,给云上不同类型的workload跑,每个实例虽然名义上只分到1/n之一的资源,但实际上可以把其他实例不用的资源(tensorcore、rtcore这个粒度)调度过来。这样真个云的利用率也能提高,应用的性能也可以提高。同时还能给云厂商自己去搞QoS卷竞争力,当然怎么切软硬件的分层确实是个很有意思的问题,我还是比较相信NV的刀法的。硬件层面的schedule确实也有一定的挑战性,不过以NV在warp schedule上的成熟经验,我觉得也是完全现实的。
总得来讲,NV的整体步伐还是稳重带着激进。虽然我对于NV下注DSA这一块的打法不是太乐观,但作为坐拥强大cuda生态的公司,直接把自己的主航道产品切换到其最大挑战者DSA的路径上,把一众竞争者从差异化竞争打压成同质化竞争,这还是相当有魄力的。
迭代很快,可能很多人第一感觉是:
1、A100还没到货,H100就发布了;
2、面向A100的软件优化还刚开始,又要考虑H100怎么优化了。
H100的一些摘要:
1、算力。H100 的 FP8 算力是 4PetaFLOPS, 6倍于A100;FP16 则为 2PetaFLOPS,TF32 算力为 1PetaFLOPS,FP64 和 FP32 算力为 60TeraFLOPS,FP16/FP32是A100的3倍。
2、内置Transformer Engine。可以将此类机器学习模型的训练时间从几周缩短到几天;内置DP加速器。
3、功耗。H100 的功率可以高达 700W——上代 A100 还是 400W。
4、虚拟化。H100 也可以虚拟化为 7 个用户共同使用,每个用户获得的算力相当于两块全功率的 T4 GPU。
5、H100 实现了业界首个基于 GPU 的机密计算。
因为细节比较少,比较关心几个问题:
1、实际的能效比/性价比怎么样
2、增加了transformer、dp这些加速器,这些加速器具体是怎么实现的;同时,内存和同步机制有了不少变化,DSA特征在增强,编程体验上是否有大的变化
3、引入TMA/异步等新的机制,最后对发挥H100算力起到多大作用。
总结,TMA/异步机制等已经很大程度改变了GPU以寄存器为中心的架构,我理解主要还是想尽量拿到tensor core这些加速器的收益;于是我们看到像NPU这些DSA架构(已经充分拿到tensor core收益)像Tenstorrent那样努力把DSA/SIMD架构进行同构化,提升架构的扩展性和编程的透明性;而H100则把原来SIMT这种同构的架构进行异构化,那他的编程性怎么办?感觉NV很大程度在搞很多一体机来隐藏这些变化和复杂度。
怎么没人提《圣斗士星矢》啊?
这个系列作品的特色不就是回回都是一部的戏就半天时间么?
黄道十二宫篇:纱织中了天箭座的箭,必须12小时内突破圣域十二宫。
北欧篇:奥丁代言者希露达被海皇戒指蛊惑令冰川融化,纱织代替希露达阻止冰川融化但是只能坚持12小时,必须在时限内摘下希露达的戒指。
海皇篇:纱织代替人类承受波塞冬的洪水,应该也是只能支撑一天之内的时间。
冥王十二宫篇:被哈迪斯复活的圣斗士要在12小时内取下雅典娜的首级,实际目的则是为了雅典娜去冥界并且唤醒女神圣衣,12小时候被复活的圣斗士们就消失了。
冥界篇:记不清打了多长时间,但从纱织被塞到缸里抽血开始到解决应该也是一天之内。
黄金魂:在本篇剧情里有好几天,但对应到冥界篇时间仅仅发生在冥界篇12黄金击破叹息之墙到打死神之间。
火星篇:马尔斯获得阿丽娅的权杖后建立起巴别塔吸引火星,会在12小时内毁灭地球,主角们必须在12小时内突破新十二宫。
土星篇:这篇好像打了很多天……
怎么没人提《圣斗士星矢》啊?
这个系列作品的特色不就是回回都是一部的戏就半天时间么?
黄道十二宫篇:纱织中了天箭座的箭,必须12小时内突破圣域十二宫。
北欧篇:奥丁代言者希露达被海皇戒指蛊惑令冰川融化,纱织代替希露达阻止冰川融化但是只能坚持12小时,必须在时限内摘下希露达的戒指。
海皇篇:纱织代替人类承受波塞冬的洪水,应该也是只能支撑一天之内的时间。
冥王十二宫篇:被哈迪斯复活的圣斗士要在12小时内取下雅典娜的首级,实际目的则是为了雅典娜去冥界并且唤醒女神圣衣,12小时候被复活的圣斗士们就消失了。
冥界篇:记不清打了多长时间,但从纱织被塞到缸里抽血开始到解决应该也是一天之内。
黄金魂:在本篇剧情里有好几天,但对应到冥界篇时间仅仅发生在冥界篇12黄金击破叹息之墙到打死神之间。
火星篇:马尔斯获得阿丽娅的权杖后建立起巴别塔吸引火星,会在12小时内毁灭地球,主角们必须在12小时内突破新十二宫。
土星篇:这篇好像打了很多天……
怎么没人提《圣斗士星矢》啊?
这个系列作品的特色不就是回回都是一部的戏就半天时间么?
黄道十二宫篇:纱织中了天箭座的箭,必须12小时内突破圣域十二宫。
北欧篇:奥丁代言者希露达被海皇戒指蛊惑令冰川融化,纱织代替希露达阻止冰川融化但是只能坚持12小时,必须在时限内摘下希露达的戒指。
海皇篇:纱织代替人类承受波塞冬的洪水,应该也是只能支撑一天之内的时间。
冥王十二宫篇:被哈迪斯复活的圣斗士要在12小时内取下雅典娜的首级,实际目的则是为了雅典娜去冥界并且唤醒女神圣衣,12小时候被复活的圣斗士们就消失了。
冥界篇:记不清打了多长时间,但从纱织被塞到缸里抽血开始到解决应该也是一天之内。
黄金魂:在本篇剧情里有好几天,但对应到冥界篇时间仅仅发生在冥界篇12黄金击破叹息之墙到打死神之间。
火星篇:马尔斯获得阿丽娅的权杖后建立起巴别塔吸引火星,会在12小时内毁灭地球,主角们必须在12小时内突破新十二宫。
土星篇:这篇好像打了很多天……
被各种朋友嘲笑订阅太低,比如跳舞:哥均订比你高订高,比如香蕉:我有四五万均订,七万高订,比如某表姐:日订阅破十一万人民币,比如三少:我每个月订阅都有好几十万呢,都是零花钱,比如奥斯卡:断更涨订阅,真的涨订阅……
感觉特别屈辱。
最屈辱的是经常有些新人跑过来,兴高采烈的说:蛤蟆哥哥,我均订破万了。你嫉妒的恨不得掐死他……