找回密码
 注册
关于网站域名变更的通知
查看: 223|回复: 2
打印 上一主题 下一主题

专⽤数据处理器(DPU)技术⽩⽪书1:DPU技术发展概况

  [复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2022-6-13 10:24 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
1、DPU技术发展概况9 @* V% j+ {; b- G5 L2 A
1.1. 什么是DPU' ?1 ?3 `1 m( S+ }3 Q% ~
DPU(Data Processing Unit)是以数据为中心构造的专用处理器,采用软件定义技术路线支撑基础设施层资源虚拟化,支持存储、安全、服务质量管理等基础设施层服务。2020年NVIDIA公司发布的DPU产品战略中将其定位为数据中心继CPU和GPU之后的“第三颗主力芯片”,掀起了一波行业热潮。DPU的出现是异构计算的一个阶段性标志。与GPU的发展类似,DPU是应用驱动的体系结构设计的又一典型案例;但与GPU不同的是,DPU面向的应用更加底层。DPU要解决的核心问题是基础设施的“降本增效”,即将“CPU处理效率低下、GPU处理不了”的负载卸载到专用DPU,提升整个计算系统的效率、降低整体系统的总体拥有成本(TCO)。DPU的出现也许是体系结构朝着专用化路 线发展的又一个里程碑。; T- J1 X( C; k+ h/ p
1 Z, i2 q* z9 B. r
1.1.2. DPU的作用
2 H" a' I7 M. D, x& K: k. \DPU最直接的作用是作为CPU的卸载引擎,接管网络虚拟化、硬件资源池化等基础设施层服务,释放CPU的算力到上层应用。以网络协议处理为例,要线速处理10G的网络需要的大约4个Xeon CPU的核,也就是说,单是做网络数据包处理,就可以占去一个8核高端CPU一半的算力。如果考虑40G、100G的高速网络,性能的开销就更加难以承受了。Amazon把这些开销都称之为“Datacenter Tax”,即还未运行业务程序,先接入网络数据就要占去的计算资 源。AWS Nitro产品家族旨在将数据中心开销(为虚拟机提供远程资源,加密解 密,故障跟踪,安全策略等服务程序)全部从CPU卸载到Nitro加速卡上,将给上层应用释放30%的原本用于支付“Tax” 的算力!
( M1 u) F/ d& g5 W2 ^) X7 n, ~DPU可以成为新的数据网关,将安全隐私提升到一个新的高度。在网络环 境下,网络接口是理想的隐私的边界,但是加密、解密算法开销都很大,例如 国密标准的非对称加密算法SM2、哈希算法SM3和对称分组密码算法SM4。如果用CPU来处理,就只能做少部分数据量的加密。在未来,随着区块链承载的业务的逐渐成熟,运行共识算法POW,验签等也会消耗掉大量的CPU算力。而这些都可以通过将其固化在DPU中来实现,甚至DPU将成为一个可信根。$ h  M: X( V% i% w0 J- x

6 }1 O8 _( P% x* S+ ~1.2. DPU的发展背景( U6 u& q9 `+ J$ M( h
DPU的出现是异构计算的又一个阶段性标志。摩尔定律放缓使得通用CPU性能增长的边际成本迅速上升,数据表明现在CPU的性能年化增长(面积归一化之后)仅有3%左右1,但计算需求却是爆发性增长,这几乎是所有专用计算芯片得以发展的重要背景因素。以AI芯片为例,最新的gpt-3等千亿级参数的超 大型模型的出现,将算力需求推向了一个新的高度。DPU也不例外。随着2019年我国以信息网络等新型基础设施为代表的“新基建”战略帷幕的拉开,5G、千兆光纤网络建设发展迅速,移动互联网、工业互联网、车联网等领域发展日新月异。云计算、数据中心、智算中心等基础设施快速扩容。网络带宽从主流10G朝着25G、40G、100G、200G甚至400G发展。网络带宽和连接数的剧增使得数据的通路更宽、更密,直接将处于端、边、云各处的计算节点暴露在了剧增的数据量下,而CPU的性能增长率与数据量增长率出现了显著的“剪刀差”现象。所以,寻求效率更高的计算芯片就成为了业界的共识。DPU芯片就是在这样的趋势下提出的。/ `8 m) l. j0 d* ^# ?9 M3 N7 C

  K# d& @' t2 o! R: u$ e( A1.2.1. 带宽性能增速比(RBP)失调:
! g3 P, Z: w* H, q. r. j0 z
5 D- ~+ B2 z2 c1 f, f" C3 x) n# |8 c) C1 u& I% x7 F

+ }4 t# _! ]2 T: M% q8 t1.3. DPU发展历程
& ]) T7 B3 m, r随着云平台虚拟化技术的发展,智能网卡的发展基本可以分为三个阶段(如图1-2所示):) a8 F) y9 M/ [9 L+ V
5 f2 X- T$ y% [1 b5 P- b

- \5 j; T6 H: n* C- _) f第⼀阶段:基础功能⽹卡, `" D6 n4 P) k, g' |$ }/ P, G
基础功能网卡(即普通网卡)提供2x10G或2x25G带宽吞吐,具有较少的硬件卸载能力,主要是Checksum,LRO/LSO等,支持SR-IOV,以及有限的多队列能力。在云平台虚拟化网络中,基础功能网卡向虚拟机(VM)提供网络接入的 方式主要是有三种:由操作系统内核驱动接管网卡并向虚拟机(VM)分发网络流量;由OVS-DPDK接管网卡并向虚拟机(VM)分发网络流量;以及高性能场景下通过SR-IOV的方式向虚拟机(VM)提供网络接入能力。
) r4 {$ J" S% O9 Z第⼆阶段:硬件卸载⽹卡可以认为是第一代智能网卡,具有丰富的硬件卸载能力,比较典型的有OVS Fastpath硬件卸载,基于RoCEv1和RoCEv2的RDMA网络硬件卸载,融合网络中无损网络能力(PFC,ECN,ETS等)的硬件卸载,存储领域NVMe-oF的硬件卸载,以及安全传输的数据面卸载等。这个时期的智能网卡以数据平面的卸载为主。
1 l; _1 U, d7 ]" W. W7 H3 w9 h第三阶段:DPU智能⽹卡
1 V7 v9 T/ g' o+ K8 Q% r& J! T可以认为是第二代智能网卡,在第一代智能网卡基础上加入CPU,可以用来卸载控制平面的任务和一些灵活复杂的数据平面任务。目前DPU智能网卡的 特点首先是支持PCIe root Complex模式和Endpoint模式,在配置为PCIe Root Complex模式时,可以实现NVMe存储控制器,与NVMe SSD磁盘一起构建存储服务器;另外,由于大规模的数据中心网络的需要,对无损网络的要求更加严 格,需要解决数据中心网络中Incast流量、“大象”流等带来的网络拥塞和时延问题,各大公有云厂商纷纷提出自己的应对方法,比如阿里云的高精度拥塞控制(HPCC,High Precision Congestion Control),AWS的可扩展可靠数据报 (SRD,Scalable Reliable Datagram)等。DPU智能网卡在解决这类问题时将会引 入更为先进的方法,如Fungible的TrueFabric,就是在DPU智能网卡上的新式解 决方案。还有,业界提出了HypervISOr中的网络,存储和安全全栈卸载的发展方向,以Intel为代表提出了IPU,将基础设施的功能全部卸载到智能网卡中,可以全面释放之前用于Hypervisor管理的CPU算力。
8 q: Y* O5 R/ l" l$ s) c, H
) [3 _/ z; C5 G未来的DPU智能⽹卡硬件形态
6 Q9 i* ~. n9 B7 U随着越来越多的功能加入到智能网卡中,其功率将很难限制在75W之内,这样就需要独立的供电系统。所以,未来的智能网卡形态可能有三种形态:3 D% {* {6 o) u, u( P% g/ ]
(1)独立供电的智能网卡,需要考虑网卡状态与计算服务之间低层信号识别,在计算系统启动的过程中或者启动之后,智能网卡是否已经是进入服务状态,这些都需要探索和解决。% D3 E; l: ^' {- R
(2)没有PCIe接口的DPU智能网卡,可以组成DPU资源池,专门负责网络功能,例如负载均衡,访问控制,防火墙设备等。管理软件可以直接通过智能 网卡管理接口定义对应的网络功能,并作为虚拟化网络功能集群提供对应网络能力,无需PCIe接口。" P9 k6 f; Z$ T9 w0 D# G' D
(3)多PCIe接口,多网口的DPU芯片。例如Fungible F1芯片,支持16个双模PCIe控制器,可以配置为Root Complex模式或Endpoint模式,以及8x100G网络接口。通过PCIe Gen3 x8接口可以支撑8个Dual-SOCket计算服务器,网络侧提供 8x100G带宽的网口。
! \5 ]& q7 v# D( S) _* o7 y6 D! h' i5 @' I
& Y" e9 Z% y) C: s/ E
DPU作为一种新型的专用处理器,随着需求侧的变化,必将在未来计算系统中成为一个重要组成部分,对于支撑下一代数据中心起到至关重要的作用。
- G$ m+ s0 G0 c- C& H( w( _, w0 |; B% s+ L+ F# P/ K
1.4. DPU与CPU、GPU的关系8 c7 @# W+ W) b) ~9 e8 X
CPU是整个IT生态的定义者,无论是服务器端的x86还是移动端的ARM,都 各自是构建了稳固的生态系统,不仅形成技术生态圈,还形成了闭合价值链。) i( F& ?! d; ^  A$ v( |
GPU是执行规则计算的主力芯片,如图形渲染。经过NVIDIA对通用GPU(GPGPU)和CUDA编程框架的推广,GPU在数据并行的任务如图形图像、深 度学习、矩阵运算等方面成为了主力算力引擎,并且成为了高性能计算最重要 的辅助计算单元。2021年6月公布的Top500高性能计算机(超级计算机)的前10名中,有六台(第2、3、5、6、8、9名)都部署有NVIDIA的GPU。
+ @9 O  q2 s5 v6 U未来算⼒⽣态(相关⼚商为不完全列举,仅做为⽰意参考):
! I) v2 R/ M! Z" p8 G# d# Y4 H" z5 t* T# E/ Y
) r6 i5 f8 I! Z* ?$ k- x% r8 D
数据中心与超极计算机不同,后者主要面向科学计算,如大飞机研制,石油勘探、新药物研发、气象预报、电磁环境计算等应用,性能是主要指标,对接入带宽要求不高;但数据中心面向云计算商业化应用,对接入带宽,可靠性、灾备、弹性扩展等要求更高,与之相适应发展起来的虚拟机、容器云、并行编程框、内容分发网等等技术,都是为了更好的支撑上层商业应用如电商、 支付、视频流、网盘、办公OA等。但是这些IaaS和PaaS层的服务开销极大, Amazon曾公布AWS的系统开销在30%以上。如果需要实现更好的QoS,在网络、存储、安全等基础设施服务上的开销还会更高。& l3 L( V2 O- n
. P* k# @4 `2 ]# \" q! r1 w

9 D+ M) G8 G$ E7 D3 T, D; y0 w5 O/ k; L

DPU-whitepaper-final-x.pdf

10.58 MB, 下载次数: 0, 下载积分: 威望 -5

该用户从未签到

2#
发表于 2022-6-13 11:19 | 只看该作者
学习学习,嘿嘿

该用户从未签到

3#
发表于 2022-6-13 14:21 | 只看该作者
需要的资料,非常实用
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-11-22 23:23 , Processed in 0.171875 second(s), 26 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表