这个问题下,好像大家都在谈消费级的CPU,这里回答个服务器级的产品——第三代英特尔® 至强® 可扩展处理器。
每一代新制程工艺的产品,与前代产品相比最大优势是晶体管数量。 晶体管数量多了,可以从很多方面去提升CPU的性能,例如:
上面1~4都是内核架构层面的,只要采用相同的内核,任何CPU都可以获得相同的性能提升。但是因为应用环境的不同,增加核心在主流消费级CPU上并不常见——起码不会每次升级制程就会提高内核数量。而在多线程应用常见的服务器、工作站、高端桌面领域,CPU厂商几乎是只要能提供多少核心就给多少,历代英特尔® 至强® 处理器的旗舰型号,内核数量从10~15~18~24~28~40一路提升,这才是最能直观体现出新工艺带来的性能提升的地方。
数据来源:英特尔® 产品规范[1]
第三代英特尔® 至强® 可扩展处理器其实有两种不同的制程、架构的产品,其中4路、8路型号都是14nm制程,架构代号Cooper Lake-SP;双路型号是10nm制程,架构代号Ice Lake-SP(ICL-SP)。针对提问所问的10nm工艺,本回答提到的“第三代英特尔® 至强® 可扩展处理器”均指ICL-SP的型号。
ICL-SP的内核架构是Sunny Cove(SNC),这个其实在搭载第十代英特尔® 酷睿™ 处理器的轻薄本产品上早已出现过了。根据上面提到的性能提升方式简单谈一下SNC对比上一代产品的Skylake(SKL)内核架构的主要提升(服务器与消费级的内核稍有不同)[2]:
2. 增加运算单元 增加一个数据存储单元,增加一个用于存储数据的地址计算单元(AGU)。为了更好的指令并发性能,整体流水进行加宽:
3. 扩大缓存 更大的一级数据缓存(L1D),从32KiB提升到48KiB,50%;更大的二级缓存(L2 Cache),从1MiB提升到1.25MiB,25%。
4. 采用更优秀的算法 新的指令抓取策略,优化了分支预测算法。
上述措施的整体效果,根据英特尔公布的数据,SNC比SKL的综合平均IPC(Instruction Per Cycle,每周期指令数量,衡量CPU的同频率性能指标)提升20%(略高于消费级SNC vs SKL的18%)。
从上面的规格对比可以看到,ICL-SP最多40核心,比SKL-SP的最多28提升了43%。英特尔® 至强® 可扩展处理器的Mesh内部互联总线使得数量众多的任意两个核心之间、核心与集成的其它模块如UPI控制器、PCIe控制器、内存控制器通信时有最佳的延迟-带宽平衡。
支持更大容量内存。 ICL-SP支持最大6TB内存,2TB DRAM + 4TB 英特尔® 傲腾™ 持久内存,比上代产品的1.5TB + 3TB增加了33%。
内存带宽更高。 ICL-SP支持8通道DDR4-3200,单插槽内存带宽高达204.8 GB/s;比上代产品的6通道DDR4-2933提供的140.8 GB/s提升了45%。
IO设备带宽更高。 ICL-SP支持PCIe 4.0,单通道带宽16 GT/s,比上代产品的PCIe 3.0的8 GT/s提高100%。PCIe通道数量也从48条增加到64条。
这些提升,配合最新的英特尔® 傲腾™ 持久内存200系列、英特尔® 傲腾™ 固态盘5800系列、英特尔® 以太网800系列网络适配器,保证第三代英特尔® 至强® 可扩展处理器可以快速的获取需要处理的数据,无论这些数据是已经加载进内存中,还是在本地/远程存储设备上。
除了性能提升外,第三代英特尔® 至强® 可扩展处理器还有不少新增特性:
英特尔® SGX(Intel® Software Guard Extension):
英特尔® SGX 技术能在 CPU 的支持下,在内存等特定硬件环境中构建出一个可信安全的 “飞地”(Enclave)。飞地独立于操作系统、虚拟机以及 BIOS 系统之外,即便比客户应用程序更底层的基础软件或系统在恶意攻击中沦陷,飞地也可以通过基于硬件的、增强型的安全防护更有效地阻断这些攻击,尽力避免其中的数据或代码被窃取或篡改。同时,英特尔® SGX 技术是目前商用 CPU 硬件中最先进的可信执行环境(TEE)实现,也是越来越重要的“隐私计算”、“机密计算”的核心技术之一。
英特尔® SST (Intel® Speed Select Technology): 可以根据不同应用场景或应用负载的特点及其对算力的特定要求,对处理器单个及多个核心的运行状态、频率和功耗进行精细化控制,从而能在保障更优能效的前提下满足不同负载的差异化需求。
英特尔® TME (Intel® Total Memory Encryption): 集成在CPU内部的透明全内存加密技术。
英特尔® 密码操作硬件加速(Intel Crypto Acceleration): 新的指令和架构特性可以并行执行多个加密函数,减少常见的数据加密带来的性能下降,可以提升SSL网站服务器、5G基础设施、防火墙等应用的性能。针对对称加密和哈希加密等常见算法,公钥密码加速负载性能提升 5.6 倍,对称加密负载性能提升 3.3 倍。
如果懒得了解技术细节的话,看跑分就好了。
先看看官方给出的第三代英特尔® 至强® 可扩展处理器测试成绩:
标准性能评测,对比上代产品平均提升46%,浮点性能提升52%;
常见数据中心负载,提升最高的是网络数据包处理性能,88%;虚拟化、蒙特卡洛计算、机器阅读(BERT)三项应用获得超过70%的性能提升;其它提及的应用负载中,性能提升幅度都超过了50%。
高性能计算中,标准评测提升幅度在38%~47%之间;实际应用中,除了财务服务中的二项式期权提升幅度较低为28%外,其它应用中提升幅度都超过50%,综合平均提升幅度为53%。
最近大热的人工智能,常见的ResNet-50,实时推理提升52%,批量56%。
可能有朋友会对官方数据的可信度存疑,其实熟悉硬件圈的朋友大部分都认为英特尔官方的评测数据是靠谱的。不过还是找一下第三方数据,看看业界标准的处理器性能评测软件SPEC CPU 2017的数据库中,第三代英特尔® 至强® 可扩展处理器实际表现如何。
这里选取Dell提交的成绩,限定双路处理器配置,第三代英特尔® 至强® 可扩展处理器的8380和第二代英特尔® 至强® 可扩展处理器的8280的成绩搜索结果[3][4]:
SPEC CPU 2017的成绩分四个部分:
英特尔® 基于10nm制程工艺的第三代英特尔® 至强® 可扩展处理器,对比上代14nm制程工艺的产品,综合性能提升43%。其实这个成绩是被一些不适合对并行计算、向量处理优化的传统应用拉低了,如果是对海量数据量进行处理,渴求处理器性能的各种数据中心应用、高性能计算、人工智能应用等,因为数据量庞大,适合分块、分组处理,可以很好的发挥多核心、SIMD指令优势,大部分应用都可以获得50%以上的性能提升。
对于未来,我想就人工智能多说两句。随着互联网、移动设备、智能硬件的普及,我们的生活、工作中产生的数据会越来越多,同时我们也更需要用这些数据为我们的生活和工作提供便利。然而作为人类的我们,获取信息、处理信息的能力总是有限的,这就更需要计算机协助我们处理这些庞大的数据,并且从这些数据中寻找出某种规律,或者提取其中重要的部分数据出来,这就要靠人工智能的帮助。所以人工智能将会是IT界下一个重要的普及方向。
可能会有朋友觉得,GPU甚至是专用的TPU,可以提供比CPU更强大的机器学习、深度学习性能。虽然这是事实,但我要说的是,GPU和TPU提供的庞大性能,对于使用海量的数据来训练模型的确很好,然而将来人工智能的普及,更重要的是智能和各种各样业务的结合。举例来说,目前大家最熟悉的人工智能应用:人脸识别,训练一个识别模型需要对海量的照片进行分析、计算,GPU/TPU会比CPU更为合适。然而训练模型只是少量的研究机构、大型企业才会去做的事情,更普遍的应用,是某个需要识别用户身份的应用如需要实名认证的金融软件、政府应用等,只需要对少量图片或者一段几秒钟的视频结合训练好的模型进行推理,然后根据识别结果进行不同的处理流程。这种情况下,CPU比GPU更有优势:应用开发简单方便、硬件普及程度高。
所以,就人工智能来说,GPU/TPU和CPU各有优势,GPU/TPU更适合从大量数据中训练出需要的模型,而训练好的模型结合业务进行推理则是CPU更适合。第三代英特尔® 至强® 可扩展处理器大幅提升的人工智能性能,对于需要使用人工智能进行分析决策、优化业务的企业来说,可以更快速的响应,降低总体拥有成本,值得有需要的企业选用。
另附一篇和英特尔® 至强® 可扩展处理器有关的回答: