2018年6月,Intel当时的CEO Brian Krzanich发表过一个看法——“Intel的任务是阻止AMD在服务器领域获得15%到20%的share。”(https://www.nasdaq.com/articles/intels-ceo-just-validated-amd-data-center-processor-threat-2018-06-17)那时,AMD的服务器市场正处于持续了若干年的黑暗状态的尾端。在Opteron横空出世抢了一波市场之后,AMD在服务器CPU的领域近十年再无建树,似乎已经把这个市场拱手让给了Intel。
而让Intel真正开始正视这个对手,并且严肃对待对手威胁的,就是一年前AMD新推出的服务器CPU——EPYC(霄龙)。
2020年7月,AMD发表2020 Q2财报。现任AMD CEO Dr. Lisa Su表示:“AMD第二季度的表现非常强劲,EPYC(霄龙)的营业额比去年同期增加了超过一倍。”AMD的股票盘后大涨10%,是18年6月份的大约5倍。反观Intel,现在的股价甚至比18年6月份还稍微低一点。狼,真的来了。
帮助AMD啃下来这个Intel将近十年的后花园的,就是EPYC处理器。我们不妨来看看这个撬开服务器市场紧锁大门的CPU,到底是何方神圣。虽然AMD在服务器市场的复苏是从EPYC第一代开始的,但是真正进入高速增长阶段,还是在第二代EPYC(霄龙)推出之后,我们今天也把主要的目光放在第二代EPYC上。
第二代EPYC横空出世的时候,最大的名头莫过于——全世界第一款7nm的服务器CPU。而在当时,Intel还在14nm挤着牙膏。事实上,直到现在,Intel在10nm上依然有些挣扎。制程的重要性就不展开讲了,但是中国现在芯片行业自己就卡在制程上,当一块芯片里面由于制程的领先可以放下更多的晶体管的时候,自然性能和灵活度都会上去。
伴随着先进制程的,是AMD本就擅长的强大的跑分。AMD第二代 EPYC一出来就席卷了各种跑分榜,直至今日还拥有着100多项世界纪录(https://www.amd.com/zh-hans/processors/epyc-world-records)。19年8月的时候,ServeTheHome的主编Patrick Kennedy还用64核128线程的7742创造了新的Geekbench 4的世界纪录(https://www.servethehome.com/geekbench-4-2p-amd-epyc-7742-sets-world-record/)。这里说个关于Patrick Kennedy的趣闻,19年11月的时候,Intel发表了一篇文章说我家的CPU比AMD厉害很多,然后发了benchmark。结果这老哥发了个文章说你们这对比纯属胡扯(https://www.servethehome.com/intel-performance-strategy-team-publishing-intentionally-misleading-benchmarks/)。后来在和Intel的测试人员沟通之后,老哥撤回了他的一部分控诉(https://www.servethehome.com/update-to-the-intel-xeon-platinum-9282-gromacs-benchmarks-piece/),说Intel做的比自己想象的好一些,但是这个对比依然有很多问题,最多可以理解为“Intel在市场推广上做的努力”。简单来说,Intel拿了一个400W TDP的CPU,去和AMD 225W的CPU拼性能……
如果你是一个跑分控,关注geekbench的话,你会发现直到今天,geekbench的Multicore榜上依然是一水的EPYC……
曾经的AMD给人的印象是,专门做Intel不太做的领域,用性价比去攻低端市场,芯片设计也跟着老大哥走,但是EPYC的出现扭转了这种现象。EPYC在服务器CPU端已经开始引领设计了。
首先是之前提到的,第一个7nm的服务端CPU。不仅如此,5nm的Zen 4架构已经摆上台面了,起码在制程上,现在AMD已经是领跑者了。
其次,第二代EPYC率先支持了PCIe 4。和PCIe 3相比,PCIe 4的IO速度翻了个倍,一个lane大约可以到2GB/s的传输速度。而第二代EPYC有128个PCIe 4 lane……在个人电脑领域,我们普通用户对PCIe最常见的需求是插显卡,这几年也包括SSD,WiFi啥的,对这个IO速度的提升可能感受不那么明显。但是对于服务器CPU来说,这是一个潜力很大的点。在云计算这块,有一些是计算密集型的应用,有一些是IO密集型的应用,有很多应用和平时的个人应用是有去别的。举个简单的例子,重要数据的多机甚至多地备份,就需要大量的服务器之间的沟通。尽管现在来看,PCIe 4的重要性还没有那么明显,但是和5G一样,他的出现给了市场可能性,原来一些没法想象的东西现在可以试试了,原来一些知道做不了的东西或许就能做了。
还有一个我关注的EPYC特性就是内存加密,也就是SEV和SME。我们公司本身是做不少安全相关的内容的。在这个领域内,一般来说,当你的底层被攻破的时候,高层的防护都会变得没有价值。所以不管你在应用端的保护做的多好,如果你的OS有漏洞,那一切都白扯。而从2018年开始,安全专家们逐渐发现,硬件本身也可以有漏洞。于是从Meltdown和Spectre开始,各种硬件设计上的漏洞被发现,让OS级别的安全又变得不足够了。
在这之后,无论是Intel还是AMD,都开始在硬件保护上下功夫。Intel做了SGX(Software Guard Extensions),然后画了个饼叫TME(Total Memory Encryption)。而AMD这边已经拿出了SEV(Secure Encrypted Virtualization)和SME(Secure Memory Encryption)。从技术水平上说,SEV和SME可以说领先Intel的SGX很多,而Intel画的TME的大饼,实际上AMD已经做出来了,做的还比他好……
不得不说,在安全的攻守上,很难有大结局。无论是Intel还是AMD,都还没有,也不可能吹响最终胜利的号角。但是在处理器安全,尤其是内存的保护这个领域,Intel现在确实是一个追赶者。
第二代EPYC在性能和价格上的强势逼得Intel不得不应战,在2020年Intel拿出了Cascade Lake Refresh系列,去正面对抗EPYC。
这个系列很有意思,因为这个系列基本就是一个死要面子的降价大甩卖……
拿这个系列最高端的Gold 6258R举例,他和Cascade Lake系列的Platinum 8280几乎一模一样。感兴趣的小伙伴可以看一下对比(https://www.cpu-monkey.com/en/compare_cpu-intel_xeon_gold_6258r-1267-vs-intel_xeon_platinum_8280-1061),这俩CPU的相似程度让人不得不怀疑Intel是不是换了个标就把原来的CPU拿出来了……然而这款Gold 6258R卖多少钱呢?$4000,比参数几乎相同的Platinum 8280便宜了$6000,是的,Platunum 8280卖$10000……而Gold 6258R其实只比Platinum 8280晚出来半年而已。而同系列的其他CPU,基本也都可以找到自己在上个系列的亲戚,只不过发现自己的身价比他们低了好多。
也就是说,Intel为了不太丢面子,把之前标价$10000的CPU打个四折,就干脆推出了一个全新的系列,换汤不换药,然后定价对标AMD。Intel下这一步棋,也是通过增强性价比,希望自己服务器端的CPU可以重新占据市场竞争力,为自己争取时间。而这个应对,其实恰恰体现了当时EPYC的实力。
然而,疯狂降价的Refresh系列,在性价比上就超过EPYC了么?Phoronix做了一个很细致的benchmark,对Intel和AMD的共计20多种setup进行了比较。在比较之前,我们不妨先认识一下参赛选手们:
在这张表里,我们把所有的参赛选手按照价格排了个序。这里AMD的参赛选手多一些,Intel还派了几个老年选手(上一代的CPU)出战。公平起见,我们就不太关注老年组的战况了,基本被R字组的完爆。我们把目光主要集中在三个R身上,6258R,5220R和6226R。这也是Intel专门拿出来去和AMD打性价比的产品。在看benchmark的时候,我们除了关注一下跑分的绝对值,也要看这个分数对应的CPU价格和TDP。如果这三个全输了,或者输了两个,另一个差不多,那就可以叫被“完爆”了。
这篇文章跑的benchmark非常多,我们拿一些有代表性的来看。
第一种是这个类型的图。从图上就可以看出来,这个benchmark AMD比较强。Intel的R系列最高端的产品6258R被价格低于自己的7532,7F52和7F72大幅度领先。7532甚至TDP也低于6258R。而7F52和7F72的价格都比6258R低20%以上。低端线的5220R也被TDP相近且价格更低7352和7302碾压。
这样的图在42个benchmark大约一共有20个。
第二个类型就是这样的图,非常明确的Intel完胜,这样的图大约有7张,其中包括了一些Intel自己出的benchmark。
剩下的图就是大家差不多,基本和价格成正比(只看R系列,非R的性价比很低)。比较典型的大概是这样的:
7742经常在跑分绝对值上很高,然后跟着6258R,接下来是一大堆AMD。这也算是个常见的类型。
从这个跑分结果可以看出来,Intel新出的这个R系列的CPU,最多最多算的上和AMD的EPYC系列各有千秋,在更多的领域里,其实是略逊一筹的。
可即使是“各有千秋”,也是完全不够的。对于领先者来说,“各有千秋”是个很危险的事情。当你占据了市场的98%甚至99%的时候,如果你不能建立起用户壁垒(把x86独享),就必须要全面压制。如果你某些应用效果更好,某些应用效果更差,对于细分领域的用户来说,他们是一定会想尝试其他的更好的方案的。我们作为局外人看benchmark就是看个热闹,但是如果你是在某个领域需要买一个云平台,你一定是关注自己领域的benchmark的。假如你是一个做视频网站的,准备找一个云做解码,你看到下面这个benchmark,会去选什么呢?
当然了,除了所谓的用户壁垒之外,惯性也是一个不得不提的因素。每个人,每个行业都有惯性。所谓惯性无非就是,这东西一直用,没啥毛病,用习惯了,就接着用。但是这种巨大新兴市场的市场份额,可不能仅仅靠惯性撑着。曾经Intel一家独霸的云计算市场,现在已经被AMD撬出来一个口子了。
最先拥抱AMD的云服务商是微软Azure,从第一代EPYC出来的时候就开始合作。在第二代EPYC出现之后又新增了若干种VM。在Azure提供的VM列表(https://azure.microsoft.com/en-us/pricing/details/virtual-machines/series/)中可以看出来,EPYC还是出现了若干次的。从general purpose的D系列,到超算云平台的H系列,都有EPYC的身影。而Azure选择EPYC的理由绝不仅仅是性价比,在多个系列中,Azure都强调了EPYC多核多线程以及内存带宽的优势,这让EPYC在一些特殊方向的VM上有着出色的表现。
Azure不是唯一选用超多核高速内存的EPYC做超算云平台的云服务商,Oracle在2020年也推出了BM.Standard.E3.128,128核2TB内存的instance。额外提一句,Oracle的general VM里还有一个VM.Standard.E3.Flex,同样是用的EPYC 7742,提供1-64核,16-1024G内存的flexible VM……
Google Cloud今年7月份推出了一个挺有趣的VM,他们叫Confidential VM,面向数据敏感度很高的用户。而这个Confidential的底层核心,就是AMD的SEV技术。通过每个VM一个encryption key,把用户的数据加密在VM内部。在数据泄露越来越严重的今天,这或许是未来的趋势。
AWS作为业内最大的巨头,在商业决定上的惯性肯定也是最大的。不过在AWS上现在也有AMD based VM。而AWS宣传AMD based VM的方式也很直接——用AMD,省10%(https://aws.amazon.com/ec2/amd/)。和其他几家云服务商相比,AWS现在依然主要盯着的是EPYC的性价比,而非其绝对能力或者特别的feature。但是性价比本身也确实是AMD长久以来的优势,无论是在个人机CPU还是服务器CPU上。
国内这边,腾讯云在18年的时候推出了国内第一款AMD云,当时用的是EPYC第一代。在第二代EPYC发布之后,又就地更新了Sa2。而腾讯宣传的手段和AWS如出一辙——超高性价比。
可以看到,无论是国内还是国外,各大云服务商们都开始逐渐纳入AMD的产品,无论是看重EPYC的性价比,还是其核心数、内存带宽的优势,还是他在内存加密领域的领先。EPYC作为一个强大的产品,已经开始帮AMD蚕食云端市场了。在个人电脑的市场逐渐打开,甚至有和Intel平分天下趋势的情况下,服务器领域AMD又会战况如何呢?
放眼未来,还是不禁要为Intel捏把汗。在Intel用偷偷降价的R系列去正面对抗EPYC第二代的时候,EPYC第三代Milan预计在今年年底就要出现了。和第二代相比,性能上预计有10%到20%的提升。在Intel刚从10nm的泥潭脱身的时候,AMD已经剑指5nm,准备Zen 4了。AMD领先的每一步,都在给自己争取时间,创造机会,让云服务商和他们的用户有时间有机会有欲望尝试AMD的产品。而云服务商们,哪怕就是为了引入竞争,给Intel足够的压力,也会把一定的资源向AMD倾斜。会不会“真香”,就要看AMD的产品本身过硬不过硬了。
只是不知道,两年前那个许下15%到20%市场份额愿望的Brian Krzanich,现在是什么心情。