1. 首页> 行业资讯> FPGA会取代CPU吗?一篇文章发表了FPGA的现状和前景

          FPGA会取代CPU吗?一篇文章发表了FPGA的现状和前景hot88,hot88官网

          来源: 2019/9/26 浏览量:22 关键词: fpga cpu 半导体现状 电子采购平台

          FPGA会取代CPU吗?一篇文章发表了FPGA的现状和前景

           

          为什么FPGA迅速? “这对同行都是好事。”

          CPU和GPU都属于von Neumann组织,并且该指令对实践和共享内存进行解码。 FPGA比CPU甚至GPU都更仔细,这实质上是没有指令且没有共享内存的架构的攻势。

           

          在Feng的布局中,鉴于实施单元(例如CPU本)可以实行任意指令,之所以需要指令存储器,解码器,各族指令的未知数单元以及分支跳转处理逻辑。鉴于指令流的支配逻辑很复杂,之所以不可能有太多独立的命令流。之所以,GPU利用SIMD(一头指令流多个数据流)来允许多个执行单元以相同的进度处理不同之多寡。 CPU还支持SIMD。指令。

          fpga芯片

           

          FPGA的每股逻辑单元的作用在重新编程(编程)时确定,不需要任何指令。

           

          在冯氏结构中应用记忆具有二元个力量。一种是保存状态,另一种是在实行单元之间开展通信。

           

          鉴于内存是共享的,之所以需要开展走访仲裁。为了利用访问一些性,每个执行单元都有一番专用高速缓存,该高速缓存保持部分间高速缓存的建设性。

           

          鉴于需要保存状态,FPGA中的寄存器和片上存储器(BRAM)属于其各自的支配逻辑,之所以无需进行不必要的裁定和缓存。

           

          为了满足通信需要,在重新编程(编程)时确定FPGA的每股逻辑单元与周围逻辑单元的衔接,并且不需要通过共享传感器开展通信。

           

          如此高的3,000英尺高度,FPGA的有血有肉性能是什么?咱分别关注计算密集型任务和通信密集型任务。

          hot88官网

          计算密集型任务的演示包括矩阵运算,图像处理,机器学习,调减,非对称加密和Bing追寻排序。这类任务通常由CPU名将任务卸载到FPGA来实行。对于这种类型的职责,咱当前正在利用Altera(她似乎叫做Intel,我仍然习惯称她为Altera ...)Stratix V FPGA的整数乘法性能基本上相当于20核CPU的浮点乘法性能。和8核CPU大致相当,并且比GPU低一个数量级。咱将采用的后生FPGA Stratix 10名将安排更多的乘法器和软件浮点组件,理论上可以实现与现在顶级GPU计算卡相同的计量能力。

             

          在数据中心,FPGA优化GPU的主导优势是延迟。

           

          对于Bing追寻排序之类的职责,要尽快返回搜索结果,您需要将每个步骤的推移减至最小。

           

          如果采取GPU开展加速,以丰富运用GPU的计量能力,则起处理的尺寸不能太小,并且延迟将在毫秒级。

          hot88官网

          利用FPGA加紧,仅需要几分钟的PCIe延迟(咱目前的FPGA是PCIe玉器)。

           

          前,在英特尔推出通过QPI连片的Xeon + FPGA以后,CPU和FPGA之间的推移可以减少到不到100纳秒,这与访问主存储器没有什么不同。

           

           

          为什么FPGA的推移要比GPU小得多?

           

          这实质上是架设上的出入。

           

          FPGA具有流水线并行性和数量并行性,而GPU几乎只有数据并行性(流水线深度有限)。

           

          例如,如果有10个步骤来处理数据包,则FPGA可以构建10除流水线。流水线的不同阶段处理不同之数据包,每个数据包通过10个级别进行拍卖。一旦为每个进程处理了一下数据包,就足以立即将她出口。

           

          GPU的多寡并行方法是实践10个计算单元,每个计算单元还处理不同之数据包。但是,全总计算单元必须实行相同的借鉴(SIMD,一头指令多数目)。这要求将10个数据包一起输入并一起输出,并且增加了输入和出口延迟。

           

          顶任务是零碎而不是分批到达时,导线并行可以实现比数据并行更低的推移。之所以,对于流计算任务而言,FPGA具有优于GPU的原始优势。

          计算密集型任务,CPU,GPU,FPGA,ASIC的数量级比较(以16位整数乘法为例,数字仅为数量级)

          hot88官网

           

           

          专用于ASIC的芯片在产量,延迟和功耗方面无可厚非,但Microsoft并未采取其它的缘故有两个:

           

          下一场,查阅通信密集型任务。

           

          与计算密集型任务相比,打电话密集型任务处理每个输入数据并不复杂,基本上可以概括地开展计算和出口。此刻,联系经常成为瓶颈。对称加密,防火墙和网络虚拟化都是通信密集型示例。

           

          打电话密集型任务,CPU,GPU,FPGA,ASIC的数量级比较(以64字节网络数据包处理为例,数据仅为数量级)

           

          对于通信密集型任务,FPGA比CPU和GPU具有更大的攻势。

           

          就吞吐量而言,FPGA上的收发器可以直接连接到40 Gbps甚至100 Gbps网络电缆,以点速处理任何大小的数据包; CPU要求从网卡接收数据包以拓展拍卖。很多网卡无法对64字节的小数据包进行线速处理。尽管可以通过插入多个NIC来促成高性能,但是CPU和主板支持的PCIe插槽数量通常受到限制,并且NIC和交换机本身很昂贵。

           

          在延迟方面,网卡从CPU接到数据包,接下来CPU名将她发送到网卡。即使采用诸如DPDK等等的高性能数据包处理框架,延迟也为4〜5微秒。更为严重的题目是适用CPU的推移不够稳定。例如,顶负载很高时,转折延迟可能会上升到几十分钟甚至更高(如下图所示);当代操作系统中的时钟中断和职责调度也增加了延迟的不确定性。

           

          ClickNP(FPGA)比起Dell S6000成像机(商业交换芯片),Click + DPDK(CPU)和Linux(CPU)的转化延迟,误区线分别为5%和95%。

           

          尽管GPU也得以高性能地处理数据包,但是GPU没有网络端口,这意味着数据包需要首先由网卡收集,接下来再处理GPU。此吞吐量受CPU和/或网卡的限制。更不要说GPU自己的推移。

           

          这就是说为什么不将这些网络功能放入网卡或利用可编程交换机呢? ASIC的灵活性仍然很尴尬。

           

          尽管功能越来越强大的可编程开关芯片(例如支持P4语言的Tofino),但ASIC仍无法执行复杂的状态处理,例如自定义加密算法。

           

          总之,FPGA在数据中心的重大优势是平静且延迟极低,租用于流计算密集型任务和通信密集型任务。

           

           

           

          二,迪斯尼部署FPGA的解法

           

          2016年9月,《连线》杂志发表了一份关于Microsoft从注FPGA的报告[3],其中描述了Catapult品种的过去和今天。

           

          接下来,Catapult品种的首长Doug Burger在Microsoft Ignite 2016茶话会上与微软首席执行官Satya Nadella合作,展示了FPGA加紧的机器翻译。

           

          该演示的总计算能力为103万Ops,即1.03 Exa-op,相当于100,000个顶级GPU卡。 FPGA(增长板载内存和网络接口等)功耗约为30瓦,仅增长了所有服务器功率的十分之一。

           

          专业的电子元器件分销商,电子元器件采购平台-hot88官网

          从一篇:

          [传感器]紫光成都存储器制造基地项目加速