百科问答小站 logo
百科问答小站 font logo



为什么CPU主频一般都比FPGA快,但是却说FPGA可以帮助CPU加速? 第1页

  

user avatar   Wingo.Wang 网友的相关建议: 
      

主频只是影响计算速度的一个因素,并不是全部。在执行一些计算密集型的任务场景中,FPGA的计算速度是更快的,目前FPGA作为CPU的协处理器已经广泛应用在Intel、AMD等公司的产品中。

CPU、GPU、和FPGA的比较

下图是左侧为CPU的组成,中间为GPU,右侧为FPGA。

桌面端的CPU为冯诺依曼结构,从上图可以看出,其基本组成为控制器,Cache,和ALU。而计算单元ALU在CPU中的占比不大,所以它的并行计算能力有限。

中间的为GPU,绿色的计算单元占了绝大部分,所以并行计算能力很强。弱点是控制能力很弱,Cache小,为了保证计算能力,就需要大量的高速DDR保证数据吞吐率。

右侧为FPGA,包含可编程的I/O、DSP、memory、PCIE等,因为大量存储单元的存在,FPGA在做计算的时候可以直接从内部存储单元读取数据。

推荐一个国外的FPGA学习网站 -- fpga4fun,里边有FPGA的介绍及26个实战项目及实现代码,非常适合入门学习!

正因为CPU、GPU、和FPGA在结构上的不同,也让他们在实际应用层面有所侧重。下图是不同体系结构性能和灵活性的比较:

目前主流的方案是把CPU、GPU和FPGA都集成在一个SoC中,通过片内总线互联。在执行并行计算的时候,比如进行图像处理,FPGA的优势就体现出来了,通过协作分工,使芯片的工作效率最大化。

目前的3D封装以及chiplet等技术为这样的组合提供了可实现性。

为什么FPGA计算速度会比CPU更快?

在执行大量的运算场景中,FPGA相比GPU的核心优势在于低延迟。FPGA比CPU延迟低,在本质上是体系结构的区别。FPGA同时拥有流水线并行和数据并行,而CPU几乎只有数据并行,虽然也会才有流水线设计,但深度受限。因此,FPGA 更适合做需要低延迟的流式处理,GPU 更适合做大批量同构数据的处理。

举个例子: [1]

我们有四个全加器,每一个的进为输出连接到下一个的进位输入,这样实现的加法器被称作行波进位加法器(Ripple-Carry Adder, RCA)。其特点为:

  • 结构特点:低位全加器的Cout连接到高一位全加器Cin
  • 优点:电路布局简单,设计方便
  • 缺点:高位的运算必须等待低位的运算完成

我们来看一下其关键路径的延迟:

总延迟时间:(T + T)*4 + T = 9T,推广到n位,总时间为(2n + 1)*T。

每一个全加器计算的时候必须等待它的进位输入产生后才能计算,所以四个全加器并不是同时进行计算的,而是一个一个的串行计算。这样会造成较大的延迟。

我们把这个电路改进一下:提前计算出“进位信号”,对进位信号进行分析。

这样我们就得到了一个:超前进位加法器(Carry-Lookahead Adder, CLA)

其中,C1、C2、C3、C4都由下面的电路计算好,需要3级门延迟,然后在全加器中关键路径上还有1级延迟,如图:

所以,总共有4级门延迟。

  • 如果采用这种完全的超前进位,理论上的门延迟都是4级门延迟
  • 实际电路过于复杂,难以实现(C31需要32位的与门和或门!)
  • 通常的方法:采用多个小规模的超前进位加法器拼接而成,例如,用4个8-bit的超前进位加法器连接成32-bit加法器。

所以我们需要更多的计算位宽或者更大的数组,或者矩阵的运算的时候,我们使用FPGA的优势就体现出来。再多的计算,也就是放置更多的硬件逻辑资源。

FPGA对CPU加速场景

下表列出了在一些特定的应用场景下,单独使用CPU和CPU+FPGA两种方案所需处理时间的对比,可见FPGA对CPU的加速效果非常明显,甚至比单独使用CPU高出1~2个数量级!

FPGA的缺点

FPGA也是有缺点的,其中之一便是开发周期长。其需要对特定的应用编写特定的FPGA。只要干的事情稍有不同,一般来说FPGA代码就要重新写一遍或者是至少要修改很多东西。如果要做的事情复杂、重复性不强,就会占用大量的逻辑资源,其中的大部分处于闲置状态。

不过,Chiplet的应用对对FPGA的开发周期有一定的优化,以下是传统FPGA开发的周期和应用chiplet的开发周期对比:

未来的方向

在现在的SoC设计中,要充分考虑不同模块的特点,FPGA 和 CPU 协同工作,充分发挥各自的长处,局部性和重复性强的归 FPGA,复杂的归 CPU。从而达到整个系统算力的最优化。

在未来,FPGA会作为协处理器和CPU、GPU共存一段时间,其主要提供以下三方面的能力:

  1. 能够提供专门的硬件加速,实现各种应用中需要的关键处理功能。
  2. FPGA设计在性能上非常灵活,使用流水线和并行结构,适应对性能的需求变化。
  3. 协处理器能为主处理器和系统存储器提供宽带,低延迟接口。

目前,英特尔,AMD,赛灵思等公司都把FPGA作为协处理器集成在SoC中作为实际应用的硬件加速解决方案,这样的设计也使得CPU和FPGA在未来的一段时间内会共存,互相配合,赋能各种计算场景。


往期精彩推荐:

低功耗CPU是怎么做到的?

为什么最好的光刻机来自荷兰,而不是芯片大国美国?

我国的光刻机开发得怎么样了?

半导体厂商如何做芯片的出厂测试?

一个芯片产品从构想到完成电路设计是怎样的过程?

参考

  1. ^计算机组成--加法器的优化 https://www.coursera.org/lecture/jisuanji-zucheng/306-jia-fa-qi-de-you-hua-Y1Q3C



  

相关话题

  芯片交付时间超过 20 周,供应短缺没有缓解迹象,还有哪些信息值得关注? 
  如何看待 IBM 宣布成功研制 50 量子比特量子计算机原型机? 
  为什么知乎上有的人不推荐 C 语言入门? 
  如何看待王垠对于内存管理的理解? 
  知乎上有哪些好的程序员可以关注? 
  可以预先将 X86 平台机器码译码到 micro operations 来解决 X86 译码效率低吗? 
  如何看待媒体报道继武汉弘芯后,目标总投资598亿的济南泉芯半导体烂尾? 
  如何理解动态规划? 
  为何一个byte有8bit而不是7/9/4/16bit ? 
  计算机专业真的如此完美吗? 

前一个讨论
如何理解Inductive bias?
下一个讨论
计算机视觉顶尖期刊和会议有哪些?





© 2024-11-08 - tinynew.org. All Rights Reserved.
© 2024-11-08 - tinynew.org. 保留所有权利