专⽤数据处理器(DPU)技术⽩⽪书1：DPU技术发展概况

名字好听吗 · 发表于 2022-6-13 10:24

EDA365欢迎您登录！

您需要登录才可以下载或查看，没有帐号？注册

x

1、DPU技术发展概况
1.1. 什么是DPU
DPU（Data Processing Unit）是以数据为中心构造的专用处理器，采用软件定义技术路线支撑基础设施层资源虚拟化，支持存储、安全、服务质量管理等基础设施层服务。2020年NVIDIA公司发布的DPU产品战略中将其定位为数据中心继CPU和GPU之后的“第三颗主力芯片”，掀起了一波行业热潮。DPU的出现是异构计算的一个阶段性标志。与GPU的发展类似，DPU是应用驱动的体系结构设计的又一典型案例；但与GPU不同的是，DPU面向的应用更加底层。DPU要解决的核心问题是基础设施的“降本增效”，即将“CPU处理效率低下、GPU处理不了”的负载卸载到专用DPU，提升整个计算系统的效率、降低整体系统的总体拥有成本（TCO）。DPU的出现也许是体系结构朝着专用化路线发展的又一个里程碑。

1.1.2. DPU的作用
DPU最直接的作用是作为CPU的卸载引擎，接管网络虚拟化、硬件资源池化等基础设施层服务，释放CPU的算力到上层应用。以网络协议处理为例，要线速处理10G的网络需要的大约4个Xeon CPU的核，也就是说，单是做网络数据包处理，就可以占去一个8核高端CPU一半的算力。如果考虑40G、100G的高速网络，性能的开销就更加难以承受了。Amazon把这些开销都称之为“Datacenter Tax”，即还未运行业务程序，先接入网络数据就要占去的计算资源。AWS Nitro产品家族旨在将数据中心开销（为虚拟机提供远程资源，加密解密，故障跟踪，安全策略等服务程序）全部从CPU卸载到Nitro加速卡上，将给上层应用释放30%的原本用于支付“Tax” 的算力！
DPU可以成为新的数据网关，将安全隐私提升到一个新的高度。在网络环境下，网络接口是理想的隐私的边界，但是加密、解密算法开销都很大，例如国密标准的非对称加密算法SM2、哈希算法SM3和对称分组密码算法SM4。如果用CPU来处理，就只能做少部分数据量的加密。在未来，随着区块链承载的业务的逐渐成熟，运行共识算法POW，验签等也会消耗掉大量的CPU算力。而这些都可以通过将其固化在DPU中来实现，甚至DPU将成为一个可信根。

1.2. DPU的发展背景
DPU的出现是异构计算的又一个阶段性标志。摩尔定律放缓使得通用CPU性能增长的边际成本迅速上升，数据表明现在CPU的性能年化增长（面积归一化之后）仅有3%左右1，但计算需求却是爆发性增长，这几乎是所有专用计算芯片得以发展的重要背景因素。以AI芯片为例，最新的gpt-3等千亿级参数的超大型模型的出现，将算力需求推向了一个新的高度。DPU也不例外。随着2019年我国以信息网络等新型基础设施为代表的“新基建”战略帷幕的拉开，5G、千兆光纤网络建设发展迅速，移动互联网、工业互联网、车联网等领域发展日新月异。云计算、数据中心、智算中心等基础设施快速扩容。网络带宽从主流10G朝着25G、40G、100G、200G甚至400G发展。网络带宽和连接数的剧增使得数据的通路更宽、更密，直接将处于端、边、云各处的计算节点暴露在了剧增的数据量下，而CPU的性能增长率与数据量增长率出现了显著的“剪刀差”现象。所以，寻求效率更高的计算芯片就成为了业界的共识。DPU芯片就是在这样的趋势下提出的。

1.2.1. 带宽性能增速比（RBP）失调：

1.3. DPU发展历程
随着云平台虚拟化技术的发展，智能网卡的发展基本可以分为三个阶段（如图1-2所示）：

第⼀阶段：基础功能⽹卡
基础功能网卡（即普通网卡）提供2x10G或2x25G带宽吞吐，具有较少的硬件卸载能力，主要是Checksum，LRO/LSO等，支持SR-IOV，以及有限的多队列能力。在云平台虚拟化网络中，基础功能网卡向虚拟机（VM）提供网络接入的方式主要是有三种：由操作系统内核驱动接管网卡并向虚拟机（VM）分发网络流量；由OVS-DPDK接管网卡并向虚拟机（VM）分发网络流量；以及高性能场景下通过SR-IOV的方式向虚拟机（VM）提供网络接入能力。
第⼆阶段：硬件卸载⽹卡可以认为是第一代智能网卡，具有丰富的硬件卸载能力，比较典型的有OVS Fastpath硬件卸载，基于RoCEv1和RoCEv2的RDMA网络硬件卸载，融合网络中无损网络能力（PFC，ECN，ETS等）的硬件卸载，存储领域NVMe-oF的硬件卸载，以及安全传输的数据面卸载等。这个时期的智能网卡以数据平面的卸载为主。
第三阶段：DPU智能⽹卡
可以认为是第二代智能网卡，在第一代智能网卡基础上加入CPU，可以用来卸载控制平面的任务和一些灵活复杂的数据平面任务。目前DPU智能网卡的特点首先是支持PCIe root Complex模式和Endpoint模式，在配置为PCIe Root Complex模式时，可以实现NVMe存储控制器，与NVMe SSD磁盘一起构建存储服务器；另外，由于大规模的数据中心网络的需要，对无损网络的要求更加严格，需要解决数据中心网络中Incast流量、“大象”流等带来的网络拥塞和时延问题，各大公有云厂商纷纷提出自己的应对方法，比如阿里云的高精度拥塞控制（HPCC，High Precision Congestion Control），AWS的可扩展可靠数据报（SRD，Scalable Reliable Datagram）等。DPU智能网卡在解决这类问题时将会引入更为先进的方法，如Fungible的TrueFabric，就是在DPU智能网卡上的新式解决方案。还有，业界提出了HypervISOr中的网络，存储和安全全栈卸载的发展方向，以Intel为代表提出了IPU，将基础设施的功能全部卸载到智能网卡中，可以全面释放之前用于Hypervisor管理的CPU算力。

未来的DPU智能⽹卡硬件形态
随着越来越多的功能加入到智能网卡中，其功率将很难限制在75W之内，这样就需要独立的供电系统。所以，未来的智能网卡形态可能有三种形态：
（1）独立供电的智能网卡，需要考虑网卡状态与计算服务之间低层信号识别，在计算系统启动的过程中或者启动之后，智能网卡是否已经是进入服务状态，这些都需要探索和解决。
（2）没有PCIe接口的DPU智能网卡，可以组成DPU资源池，专门负责网络功能，例如负载均衡，访问控制，防火墙设备等。管理软件可以直接通过智能网卡管理接口定义对应的网络功能，并作为虚拟化网络功能集群提供对应网络能力，无需PCIe接口。
（3）多PCIe接口，多网口的DPU芯片。例如Fungible F1芯片，支持16个双模PCIe控制器，可以配置为Root Complex模式或Endpoint模式，以及8x100G网络接口。通过PCIe Gen3 x8接口可以支撑8个Dual-SOCket计算服务器，网络侧提供 8x100G带宽的网口。

DPU作为一种新型的专用处理器，随着需求侧的变化，必将在未来计算系统中成为一个重要组成部分，对于支撑下一代数据中心起到至关重要的作用。

1.4. DPU与CPU、GPU的关系
CPU是整个IT生态的定义者，无论是服务器端的x86还是移动端的ARM，都各自是构建了稳固的生态系统，不仅形成技术生态圈，还形成了闭合价值链。
GPU是执行规则计算的主力芯片，如图形渲染。经过NVIDIA对通用GPU（GPGPU）和CUDA编程框架的推广，GPU在数据并行的任务如图形图像、深度学习、矩阵运算等方面成为了主力算力引擎，并且成为了高性能计算最重要的辅助计算单元。2021年6月公布的Top500高性能计算机（超级计算机）的前10名中，有六台（第2、3、5、6、8、9名）都部署有NVIDIA的GPU。
未来算⼒⽣态（相关⼚商为不完全列举，仅做为⽰意参考）：

数据中心与超极计算机不同，后者主要面向科学计算，如大飞机研制，石油勘探、新药物研发、气象预报、电磁环境计算等应用，性能是主要指标，对接入带宽要求不高；但数据中心面向云计算商业化应用，对接入带宽，可靠性、灾备、弹性扩展等要求更高，与之相适应发展起来的虚拟机、容器云、并行编程框、内容分发网等等技术，都是为了更好的支撑上层商业应用如电商、支付、视频流、网盘、办公OA等。但是这些IaaS和PaaS层的服务开销极大， Amazon曾公布AWS的系统开销在30%以上。如果需要实现更好的QoS，在网络、存储、安全等基础设施服务上的开销还会更高。

CRAZY_argentina · 发表于 2022-6-13 11:19

学习学习，嘿嘿

big_gun · 发表于 2022-6-13 14:21

需要的资料，非常实用

专⽤数据处理器(DPU)技术⽩⽪书1：DPU技术发展概况

EDA365欢迎您登录！

浏览过的版块

推荐内容 /1

帐号		自动登录	找回密码
密码			注册