TA的每日心情 | 怒 2019-11-19 15:34 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
9 u3 a9 z7 N$ [. `- j! s. `
计算密集型任务的例子包括矩阵运算、图像处理、机器学习、压缩、非对称加密、Bing 搜索的排序等。
7 L' B3 M) H! u4 R这类任务一般是 CPU 把任务卸载(offload)给 FPGA 去执行。 i+ m% _! F# z+ b! h
对这类任务,目前我们正在用的 Altera(似乎应该叫 Intel 了,我还是习惯叫 Altera……)Stratix V FPGA 的整数乘法运算性能与 20 核的 CPU 基本相当,浮点乘法运算性能与 8 核的 CPU 基本相当,而比 GPU 低一个数量级。
8 {- z ?) q0 U. d# o我们即将用上的下一代 FPGA,Stratix 10,将配备更多的乘法器和硬件浮点运算部件,从而理论上可达到与现在的顶级 GPU 计算卡旗鼓相当的计算能力。
2 x, a4 L8 J0 f0 W5 O% f2 V1 G! B+ k+ E) Q
' v! v K3 Q; A: Y1 h" y9 _( `1 [+ A9 g+ U. q- ?
▲FPGA 的整数乘法运算能力(估计值,不使用 DSP,根据逻辑资源占用量估计)- i( @- o( D3 _3 C! M
$ J# I2 W) M/ ^3 I1 e: b
9 U6 ^) C4 D6 j, ^
* V/ L! `: _% h4 Y: a9 C u, z▲FPGA 的浮点乘法运算能力(估计值,float16 用软核,float 32 用硬核)& g* `0 _3 R2 l# Z! ]" C* ^6 M8 w
% D4 {# j4 k3 \在数据中心,FPGA 相比 GPU 的核心优势在于延迟。
* B; d9 C: T: G& H. W
4 H2 t$ ^0 B- s. F5 [5 A/ c6 B像 Bing 搜索排序这样的任务,要尽可能快地返回搜索结果,就需要尽可能降低每一步的延迟。, K% _6 r* K0 {; [8 e
( w/ e4 \* |3 M1 {如果使用 GPU 来加速,要想充分利用 GPU 的计算能力,batch size 就不能太小,延迟将高达毫秒量级。6 |! n1 ?% n% [8 j4 x) [* y
: ^0 [4 Y6 P$ w
使用 FPGA 来加速的话,只需要微秒级的 PCIe 延迟(我们现在的 FPGA 是作为一块 PCIe 加速卡)。
% s3 }2 w; z9 d! m Y- t2 K5 }) f& `4 I7 A2 B `/ _+ c2 B; m. F
未来 Intel 推出通过 QPI 连接的 Xeon + FPGA 之后,CPU 和 FPGA 之间的延迟更可以降到 100 纳秒以下,跟访问主存没什么区别了。
/ U# `, {" L3 V
( g I! o* @6 V* T |
|