EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
想要提高芯片之间的通讯速度,应该怎么做呢?传统的思路是优化芯片之间的通信接口。 # E5 h% |3 n) r* z/ \
5 w. c6 f; @( o% S) P7 d. F1 B
2 v A0 [( X' f: X* t9 G3 b/ g6 C p R1 O
EDA365电子论坛 1
- ]4 m, r) y$ y$ V谷歌发布了Cloud TPU测试版,以及Google Kubernetes Engine的GPU。比如谷歌云服务中心使用的AI芯片TPU,就专门在每块芯片上都专门设计了4个用来做芯片之间通信的接口,
# A$ B, a) a" v. ]3 Z" E: x但是这种思路有一个天花板,就是如今的接口技术,芯片之间的通信技术,达到每秒钟几百甚至上千GB,就已经接近极限了,再要提升,技术上可能会非常困难,这里要额外提一句,每秒钟几百GB的速度,听起来还是挺快的,但对于云计算中心而言,依然会成为制约整个系统运算性能的关键因素,那还有什么别的办法可以继续提高数据传输速度呢? + ?/ P+ ^ J' P& S! u
1 C( l9 y- P7 F+ z- K! Y' R
$ a2 [& f) `! T8 u6 I4 L; ~& N }这里就要说到Cerebras这家公司的“巨无霸”芯片了,它的思路就是把很多块小芯片合在一起,做成一块大芯片,这样原来需要很多芯片之间相互通信的任务,就可以在芯片内部进行数据传输了。
* b6 T0 d& U1 U4 u要知道,芯片在自己内部传输数据的速度,是远远高于芯片之间通信的速度的,这就如同,我们左脑跟右脑互相沟通的速度,肯定比我们跟别人沟通说话的速度要快。
, F; |; y& D- E- P" I. a+ }2 V1 R2 I- z0 u+ ?5 |6 [
EDA365电子论坛 2
1 e: t( G5 t2 |; H! w事实上,按照这家公司披露的数据,这块芯片内部通信网络的速度,可以达到1000PB每秒,是目前最快的芯片之间的通信接口速度的10万倍。如果未来超级计算机,都使用这种“巨无霸”芯片,那就能够很好的解决芯片间通信速度。
6 l* s; \2 z1 B4 o3 n( K9 c9 |+ Y5 ?. R" s; V2 C* R
: E4 B9 f* L- f, W" O. ^- M这个制约运算速度的瓶颈对整体性能的制约影响,那既然把计算芯片做大有那么多的好处,为什么以前就没人做呢,事实上,不是没人做,而是这件事太难了,还没有人能做到,为什么这么说呢?
+ i9 M& e0 G2 h$ w* ~( x% Q问题的关键就在“可靠性”三个字上,众所周知,所有的芯片都是在一块圆形的硅片上,经过非常精细的半导体工艺加工而成的,在加工的过程中,难免会有一些加工缺陷和误差,导致硅片上局部失效。
4 W) |, n3 J3 p在过去,一片硅片上通常会切割出几百块小芯片,而这些局部工艺的误差,顶多也就是影响其中一部分芯片,我们只需要把剩下的部分完好无损的挑出来,就可以到市场上销售了。 {- l+ N7 G6 _/ f4 c+ o% I
]- Y c. u( }; g: X
3 p7 B) X6 ~" `# O看到这里你可能已经明白了,既然加工过程中,难免会出现一些工艺缺陷,那一块芯片的面积越大,上面出现缺陷的概率就越大。 - f1 K. ~( p$ n5 r. Z/ Q! X0 l
# S7 y- V! C1 @- |. L
EDA365电子论坛 3
$ v" i$ d% |$ C8 D所以想要成功的把它制造出来的难度也就越高,像这次发布的“巨无霸”芯片,面积是过去芯片的50多倍,对于工艺可靠性的要求理论上也就提高了50多个量级,这么高的可靠性要求,在过去是很难做到的,这也就是,在过去很少有这种超大型芯片的原因。 ; J, i+ C! z# W. G
看到这里,大家就会知道提高芯片之间通讯速度的一些可行性方法,通过对芯片的结构进行可靠性优化,比如,在芯片内部设计一些冗余和备份的结构,让硅片上即使出现一些加工缺陷,也不会影响芯片整体的正常使用。这就体现了“可靠性”的重要性。 9 r+ I; L ^4 V6 N/ \7 j( E
文章由巢影字幕组译制 ; f& Z. Z! S, q6 C9 o' Z8 ^) W
5 _/ O; I& E' S& Y2 r; @8 }
|