EPYC 是AMD 在服务器CPU 市场上的翻身帐开始,在发布会上,AMD 明晃晃的提出打破摩尔定律的限制,这个来自fab 的说法。
每个EPYC 处理包括4 个Zeppelin die,使用的还是2D 的 MCM (Multi-chip module)封装。
AMD 的革命性 the Infinity Fabric,不仅仅是die-to-die 的互联总线,还是* {2 b/ d4 O2 G! _( U J& @4 X' J8 S
processor-to-processor 的互联总线。从这里也可以看出来,cache coherent 互联总线设计,和CPU 的设计关系紧密,凡是 cache coherent 互联总线的标准背后都有家CPU的设计公司。
单独看, 每个Zeppelin die 都包括单独的memory, IO complex,infinity Fabric 的控制与接口,下图更清晰一点。每个Zeppelin die 是213mm^2,4 个die 就是852mm^2。AMD 给了如果用一个single chip 设计的话,die 的大小大约就是777mm^2,也就是说有10%的面积损耗,但是777mm^2 非常接近reticle limit size 了。
名词解释 reticle limit size, 这是光刻机能够处理的最多的尺寸。对于193i immersion steppers 这个限制就是33*26, 856mm2, TSMC 的12nm 工艺,估计TSMC 会设置成815 这类数字。
对于单一产品的生产测试,良率,最后的价格,我相信AMD 的工程师与架构师一定反复核算过。Intel 的工程师与架构师采取冗余设计来保护single chip 设计,这也是同一个die,有不同的核数的原因。这两种方式都是在提高良率,降低制造成本,以损失性能的代价。
但是如果从公司层面看,对于研发成本,一个Zeppelin die 可以覆盖服务器和桌面两个市场,这个收益明显。想想AMD $6.48 billion 的收入,与Intel 的$70.848billion, 合情合理。[TSMC 台积电的2018 收入是US$32.47 billion]
从Intel 的lakefield 上看,10nm CPU/GPU die 加 22nm 的I/O die,尺寸上的收益明显,重用22nm 的I/Odie,对于开放成本,时间,相比收益也是不错的。
$ F. ^: n9 B1 D% U$ q( I
Ryzen 产品线重用了 EYPC Rome 的CCD。只是单独配了一个Client IOD。
对于产品线复杂的公司,chiplet 设计,极好的降低了总研发费用。
Stratix 10 是Intel 第一款使用EMIB 的设计,中心是FPGA die,周围是6 个chiplet。4 个高速transceiver chiplet 和2 个高带宽memory chiplet。这6 个chiplet,是来自三个不同fab 的6 个不同工艺chiplet,用来证明不同fab 之间的强大互操作性。3 h6 {# j; W9 n7 i; n3 Z
chiplet FPGA 公司必须有名字。FPGA 公司因其属性和高利润性,一直是各种先进工艺的率先使用者。而FPGA 一开始采用Chiplet 方案,就是为了打破fab 的物理限制,做超大芯片。
讲真,其实所有AISC 的新应用领域,都是从FPGA 的设计开始的。& S! E5 Q8 s; K" t
) p G3 E9 ?. A& ?: o1 |& z! V
2011 Virtex-7 2000T 就是4 个die 的chiplet 设计。文献20 中的Xilinx 的白皮书,是比较好的对于chiplet 技术的一个探讨。Chiplet 并不是一个新技术,只是在新工艺节点越来越贵,竞争越来越激烈的半导体市场上,又重新被广泛应用了而已。
Xilinx 号称提供业界唯一的同构和异
Marvell 提出Mochi 概念,最大的驱动力是降低成本,模块化芯片设计,像LEGO 那样,提高模块的重用性。借助基本模块的重用,还能在保持灵活性的同时,加快新产品的上市时间。
/ G1 `6 C2 ] U; u! T' N9 \( Q
构的3D IC。
2015 年当时的Marvell CEO Sehat Sutardja 估计到2018 年开一个Mask 的价格是$10million(我也不知道这个价格,是不是对,知道的同志们,可以吱一声),因此要有25M 的出货量的产品,ROI 才合算。不知道大家对25M 这个数字是否有感觉,但是基本上,服务器(约12M),4G 基站(约7M),汽车(86M)这种市场就不用考虑最新工艺了。
Marvell 采用了Kandou Glasswing IP 作为die-to-die 的接口, 而Kandou 依然非常活跃在chiplet 的互联标准组织中。但是这个chiplet 互联标准,是一个新生态的核心标准,竞争者众多。
海思的第一片公开的chiplet 设计,就是2014 年TSMC 16nm FinFet 网络芯片。这个时间,这个工艺,这个CoWoS,都是闪闪亮的顶配。
海思因为其属性,公开消息并不多。往往是因为合作伙伴,需要展示自己的技术突破,海思才被迫营业,站台示众。这个海思1616 就是这样挂在TSMC 的网站上的。
晟腾910 的8 个chiplet 设计,融合了HBM die,逻辑部分与I/O 部分分离,两个dummydie,超大总die size 等特点。也算是业界标杆性设计。
HBM 从设计开始就是3D 封装的,因此有些讨论chiplet 的文章,并不包括HBM。但是在我看来,凡是采取多die 封装的,都算是chiplet 的范畴。Memory die 也是chiplet,而且memory 公司卖Known good die 的历史蛮长。
2016 年 AMD Radeon R9 Fury X 是第一个采用HBM 的芯片。Nvidia 紧随其后。$ p" z) T6 ~# ]# Z f8 ?
Fujitsu 的PostK supercomputer 设计,也采用了CPU die 与HBM 一起封装的设计,因此A64FX 芯片的管脚,要比一般的芯片精简不少。
Chiplet 的技术挑战
Interconnect inteRFace 的标准化 互联接口标准化重要么?仅仅在需要对接来自不同厂家的chiplet 的时候,才重要。一个公司内部,他们自己心里有数就好。
现有接口能解决这个问题么?其实能的,如果不追求高带宽,低延迟,这类性能指标。回想一下前面的案例, 逻辑die 和IO die 之间,需要什么接口?
3.1.1 DARPA Chips 项目
DARPA 先讲了一个与商业芯片公司不同的动机,就是如何降低高研发成本,特别是对于量不大的应用。DARPA 用的芯片,估计量也大不到哪里去,却不得不用啊,商业市场的那套“走量”的生意模式,这里肯定是不行的。
可以如logo 一样拼接组合的chiplet,肯定是一条出路。
CHIPS 项目的一个重大成果就是Intel 的AIB( Advanced Interface Bus),这是一个royalty free 的chiplet-to-chiplet (or die-to-die) 的物理层接口标准。Intel® Stratix® 10 FPGA 用的就是AIB 接口。(在github 上找得到代码的项目,才是真·开源项目)
但是有意思的是2018 年开始的ERI 电子复兴计划第二期中的3DSoC Three Dimensional Monolithic System-on-chip 3D 单芯片系统。
OCP ODSA
相对于DARPA 纠结的哪些闪光的logo 们,OCP 的ODSA 工作组相对平民化很多,当然, Global Foundries 在镇场子。ODSA 把die-to-die 的层次。而且ODSA 把chiplet marketplace 的口号提了出来。
这个和DARPA 解决量小芯片项目的目的是不同的。
Chiplet 市场这件事,如果做得好,可以改变产业界的分工合作关系。所谓的优化供应链,就是新的一轮洗牌。
OIF,JEDEC,CCIX 和其它
OIF 有一些关于die-to-die 的讨论(看了看,不算明白)。JEDEC 一直出memory 接口标准的。历史上一个好标准,被借用在其它地方的事情也时有发生。Memory 业界一直出好标准。
还有一些公司,就不搞什么标准,直接上产品,例如
cadence Ultralink D2D PHY IP ,Synopsys 新出的 DesignWare die to die PHY IP 简单,高效,我喜欢。
物理层,把chiplet 对接在一起。而在物理层之上,有两种类型倾向的语以接口,I/O 类型的和memory 类型的。保持一致性,以硬件复杂换取软件简单?还是不保持一种性追求高效。
ARM,AMD 一开始支持的CCIX,与Intel 主导的CXL,哪个能成为chipet-tochiplet的主流标准?目前尚未有结论。
MCM - Multi Chip Module! ]' E# E2 l" R+ l9 x" z5 @$ [ x" u! ~
3.2.2 Interposer3 ~9 }) `! @$ V
3.2.3 TSV
' z1 h2 u6 k: G8 o3.2.4 TSMC CoWoS* ]6 z) E! |5 C" _
3.2.5 Fan-Out Wafer-level packaging! g C+ z$ ] `; u6 ^, E
3.2.6 InFo WLP and fan-in WLP
4 s! ]) I }; ?- M3.2.7 Samsung FOPLP2 c7 Z0 E4 d( P, Z4 ~
3.2.8 Intel EMIB
8 t# r% U5 e2 k3.2.9 Intel Foveros- m1 r4 i" K) C3 K
3.2.10 价格与性能的折衷
& L4 d$ V% [5 f8 o- j3.2.11 高价值小批量的芯片/ a u' M5 H3 M& S: m( O
3.2.12 大规模生产类型的芯片
KGD&测试
工业标准测试非常重要。通常,我们只做整个芯片的测试,但是现在我们需要在封装前,测试出“known good die”。业界需要一个KGD 策略和一个测试策略,目前还是空缺的。测试裸die,可比测试整个芯片麻烦多了,也难多了。
而且要独立测试chiplet,对于功能并不独立的某些chiplet,也很复杂。
EDA工具
EDA 工具对chiplet 的支持,仿真,都是需要慢慢补齐的。
多供应商的电源,功耗管理问题
多个chiplet 的多供应商的电源,功耗管理,都是问题。需要标准,也需要业界统一。
Chiplet 的商业模式挑战
如果上章的技术问题,都能完美的解决。让我们重新考虑一下chiplet 这个技术方案的商业动机。
最初chiplet 是为了打破芯片面积的物理上限,而近期是为了解决最新工艺节点的高昂IC设计费。
例如,28nm 需要$51.3 million, 7nm 芯片需要$297.8 million(International Business Strategies(IBS))。
人间理想,一个开放的数量巨大的chiplet 市场, 客户可以自由的mix-and-match, 不同的逻辑使用不同的工艺节点,IP 可以重用,研发费用在多个设计之间平摊, 创新度剧增。
谁受益,谁有可能受损?) Q& K/ `" b1 X# q- F* F
! ?$ p7 r3 F: d工厂和封装厂肯定是受益方。
: v3 f1 w6 z2 | E
IP 公司会是受益方么?卖IP RTL 风险小,把自己手中的IP 升级为chiplet 利润高。
Chiplet 降低了半导体设计的门槛,对于新进入的公司,是一个好消息,但是这chiplet 的这种模块化设计,其实拆分了半导体公司的方案,消弱了整体竞争能力。
对于最终的买家来说,降成本的chiplet 无疑是受欢迎的。
) N" Z* [" m0 ]4 e! B# c# V
2 t, o$ n2 f$ M3 e& I2 g
! \- I1 D1 n2 d6 J1 X