|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
今天给大侠带来Intel altera opencl 入门,话不多说,上货。
8 P$ A. u9 ^9 ^2 |# Q
8 T: m2 {' _/ |6 t: D7 x
M/ {! A+ `; c3 L2 f概述
% \9 }5 D# L [9 g0 E4 E
, R) S7 M Q6 u. ^* a& {# B/ y6 M F6 ~+ G+ r P- k! |. a; O' ]
Intel altera 的 OpenCL 主要面向信号处理类应用的客户,是用C语言开发FPGA的利器,开放计算语言(OpenCL)联盟著名的公司有 FPGA巨头Intel altera、两大显卡GPU巨头AMD和英伟达、CPU巨头Intel、软件和服务器巨头IBM以及全世界最大的公司Apple(苹果)等等。不过AMD和英伟达是用GPU实现的OpenCL并行运算,Intel altera是用FPGA实现并行运算。
) j B8 D# z1 b+ I0 D. m
$ U* I" z: j: L- _8 f3 ]& e6 n: W# S+ `& U0 H* T
. m, \$ D k: \
3 |+ p. E' H% U% m4 {7 |. ]2 a
1. 系统要求! l& N$ _! I% |) G
Microsoft 64-bit Windows 7专业版或者更高。
0 C; V- [, i- x0 f% b+ }- U" @对于Windows操作系统, 要安装微软公司的Visual Studio 2010或者2012专业版(推荐)。' ?) o) O3 ?) A2 a4 F$ I4 ?
, i8 B: @- O' v+ v2 y
, f, N1 T( b9 I6 m* \" e( S0 D- X4 ` 或者:
1 }8 |+ n& E% Y9 Y+ K% o* M$ W1 v3 G$ q- }8 y
; A5 P5 l& D+ X$ C
Red Hat Enterprise 64-bit Linux (RHEL) 5或者6。
9 K7 H2 P& j: g! W对于Linux操作系统, 安装操作系统过程中要把C编译器包括GCC勾选上。1 s8 b9 S/ \) q- z
+ j) ]$ q9 J7 k2 f, K( ?" Z7 l- ^6 t3 h+ K
2.安装Altera的软件和搭建OpenCL环境(以Windows为例,Linux也类似):
# o6 C* O8 D4 C+ b6 D0 i5 d$ B8 t8 U, S: C1 @
安装Quartus II 13.1 Update4(或者14.0)•安装Altera OpenCL 13.1 Update4(AOCLSetup-13.1.4.182.exe)(或者14.0)
; h: w3 Y" u% V5 t7 \* c/ y! M% Z" o+ B% t. {7 _
; [0 k3 `: [- E! N设置环境变量(基于默认的安装路径):
( Q: h8 J( D( k d( d) l# t5 O3 u; Y& d: D
变量和值如下:ALTERAOCLSDKROOT和C:\altera\13.1\hld(或者C:\altera\14.0\hld)
4 X9 D& F1 v2 z9 z) C" p% _' d4 _PATH和C:\altera\13.1\hld\windows64\bin(或者C:\altera\14.0\hld\bin;C:\altera\14.0\hld\host\windows64\bin)
& e% c. T; w% M, l8 CLM_LICENSE_FILE和c:\altera\license.dat
2 e8 z3 X9 M# Z6 ^! K3 L7 Z" Y3 F
' _) O* S6 {& v; Q参考下图:& Y: a0 E2 n7 ]( j& \) i5 q
; r# n# m$ x2 P$ e
, E$ ?9 V! v. E
) r2 `/ W$ t& Y3 O$ R6 G
( ^7 E& F) b: l: M O
1 c, x, I: G* I" b( F* c
1 `4 L: c. w/ g7 ]6 p2 Y: o' n% S! u0 x9 X) ]
8 k4 @, s. i! \+ R/ t4 ]# @% ]/ e; J5 J0 t
然后在命令行里面运行where aoc,测试一下软件是否安装正确以及环境变量是否设置正确,如果正确,如下图;如果不正确,修改错误再来。. n5 h, P, I y5 Y' n i: r
O7 K6 E; v; z/ t1 X, e
7 g9 _! c2 X- k, n5 Q
: `! D3 x9 a& j4 P9 X% x
0 Q1 F: q; f4 A* d8 d8 N或者(14.0), H* k' ^: _) }% N
7 i. L% q8 [7 w! i; A! Z$ v! ?
* E5 g! d3 @% p' v' Q
* w, C2 o0 k1 i: \2 ~" p
* P9 d" _' x8 S. K' v8 \( L+ l0 w3 y: H* E* j, u
3.开发板环境的安装和测试(以台湾友晶的DE5-Net开发板为例,不过没有开发板也可以,开发板不是必需的):) J3 J1 z) U( |2 ^
( w" p# w; r$ E3 V+ k- |1). 准备工作:下载DE5-Net开发板的全套软件安装包,http://www.terasic.com/downloads ... 5NET_openCL_BSP.zip 136MB,把里面的terasic文件夹解压缩到C:\altera\13.1\hld\board\下。2 ]0 r+ ~% j9 I* o/ _' D
- G9 a/ K+ V+ S5 `7 M. B4 o设置DE5-Net开发板的环境变量:2 o- \1 X. i1 ^+ p- A4 O
5 C) v$ X0 s( B变量和值如下:8 e/ b6 X& V( P& d
AOCL_BOARD_PACKAGE_ROOT和C:\altera\13.1\hld\board\terasic\de5net参考下图:
4 P) x$ l: P; O9 G8 l7 q; D2 @1 ]' I$ J* P# i% [- @1 _
% Y6 ^: _8 I% m: P3 A# m3 t
5 k7 p [1 P9 d' _( T: I T4 ?7 V
然后在命令行里面运行aocl install来安装开发板驱动。
1 L. \$ @1 U9 i( b+ u* s2 k) |# J# ~; x: ?; ^) X
关闭你的PC,安装和连接开发板硬件后,重新开机,在命令行里面运行aoc --list-boards,如果硬件安装连接成功,会显示开发板名字de5net_a7,如果开发板不存在,显示none found。" u4 k6 v5 Z3 H8 }1 \5 |
L* S( z+ y9 U
2). 测试开发板:( @% f6 K U( y' m# N- W- Q
7 ]4 T0 v+ O7 z# k) @: {在命令行里面运行 cd C:\altera\13.1\hld\board\terasic\tests\blank,运行aocl program blank.aocx,如果开发板已经安装连接好,aocx里面的sof文件会通过PCI-E接口下载,并且会返回成功的信息,如果开发板不存在或者没有安装连接好,会自动解压缩出reprogram_temp.sof,用户可以通过USB下载电缆去下载。( O5 i. d* X' A2 _
6 n4 d, g8 L2 \; G X( x备注:没有开发板的客户可以在设置环境变量后跳过后面的步骤,继续。0 ^, {! y1 f4 D& @
& b: c9 N' y+ _) _
0 m3 D1 b2 b% B( ?5 `- Z4.编译和测试OpenCL工程:0 M( Z5 F0 E* q$ E: {
, R/ w w5 P, u4 T
1 Y5 z/ V b. B& _: ~; K4 S1). 编译OpenCL工程:在命令行里面运行cd C:\altera\13.1\hld\board\terasic\tests\boardtest进入工程文件夹,运行aoc boardtest.cl --sw-dimm-partition开始编译,编译时间大约1个小时,最终产生的boardtest.aocx里面包含了sof文件,可以给开发板编程进去。. x( e, A8 D# B- j! y8 [3 t# O
: H9 N, T% l$ F/ k2 t2). 测试OpenCL工程(通过开发板):, n+ {) B# H6 c/ c7 h8 k) s, [8 K* P
* f6 V" Y w" q: A+ @
在命令行里面运行 cd C:\altera\13.1\hld\board\terasic\tests\blank,运行aocl program boardtest.aocx,如果开发板已经安装连接好,aocx里面的sof文件会通过PCI-E接口下载,并且会返回成功的信息,如果开发板不存在或者没有安装连接好,会自动解压缩出reprogram_temp.sof,用户可以通过USB下载电缆去下载。
7 e3 ?7 L2 _, q) G) T E7 i
# S" k0 \& ]; v7 C* J, V0 W' F g! f: s8 K提示:没有开发板的客户可以跳过上面的步骤,直接编译下面不需要开发板的例子,有开发板的客户可以直接到第五步:
1 x m0 l2 R# h7 Y# k% f下面完全脱离真实的开发板来运行Cytech_C5SOC.zip:
s1 P0 [" B( l8 q8 {
: B, @- O* x: g- d. m0 R3 [3 g: X6 u% H) F9 @$ u& Q8 i8 k' e
& y+ g# }" U& G) L2 P% q8 F( [. ~0 o- `6 m7 c9 F+ s! I
2 G5 m% L- h) ?0 c' H
设置“虚拟”板的环境变量(替换原来的环境变量):
/ W- u$ n8 u" B- o4 M- [! h
4 _+ f8 X) U! Q变量和值如下:
5 [2 K+ d- i; a; f2 h! D/ Z
1 d. u2 w) Y- E' j0 I: d' E6 e3 iAOCL_BOARD_PACKAGE_ROOT和 C:\altera\13.1\hld\board\Cytech_C5SOC
2 F# q) R9 l6 d0 P# X& \6 z4 u参考下图:
# R) O5 n7 n" @
9 N9 k# d2 o8 a( `
8 ^3 M' W, A& R1 @7 v# O
. X o' n, c$ e* ?' c2 g5 V. j
( @1 O* k. {, a$ L- D7 e+ ]
9 B% x% G% M* A1 P9 G) \& f0 I& B9 J
解压缩Cytech_C5SOC.zip里面的内容到C:\altera\13.1\hld\board\(也可以是其它文件夹),把例子exm_opencl_hello_world_windows64.zip里面的hello_world.cl也复制到这个文件夹下,在命令行里面运行cd C:\altera\13.1\hld\board\,运行aoc hello_world.cl开始编译。----因为Cyclone V SOC的5CSXFC6容量比Stratix V的5SGSMD5小几倍,所以编译时间只有20分钟左右,最终产生的hello_world.aocx里面包含了sof文件,同时也产生了转换后的.V源码和整个编译后的Quartus II完整工程,包括大量的底层配套的各种IP源码。- S5 Q* H3 N; G" Y
7 v$ o' p! F$ ]# c" d) s# |: X
& F5 l4 a- o( o) t. w9 }3 n% o
再演示3个不同的例子,分别是vector_add、matrix_mult和FFT,也是完全脱离真实的开发板来运行:3 z$ S. ]9 U, e- l+ s5 V' j
. @8 {5 Y$ ^! Q8 ` |
/ r- h4 r0 v# c' \. H& E
' ` V ]4 I$ F3 T1 f不改变上面“虚拟”板的环境变量,目的是继续使用Cyclone V SOC的5CSXFC6,可以产生为这个系列优化的源码。
, l3 j7 J. G" d
' O; M. W G) a; d3 ^/ }' l) f- Z- s# ?% G# r' t( U! z
分别解压缩3个zip例子到C:\altera\13.1\hld\board\(也可以是其它目录),然后分别在在命令行里面:9 U1 J: a+ J: A; C1 `
0 c" C- ]- I# P
1.运行cd C:\altera\13.1\hld\board\vector_add\device,然后运行aoc vectorAdd.cl开始编译。
1 b' g$ X2 |9 P( G4 H2.运行cd C:\altera\13.1\hld\board\matrix_mult\device,然后运行aoc matrix_mult.cl开始编译。
. ~) f2 R1 w, F3.运行cd C:\altera\13.1\hld\board\fft1d\device,然后运行aoc fft1d.cl开始编译。4 N3 c p* c, o8 W. I& w
" \5 W4 K. |! d; y3个例子之间没有任何联系,可以单独运行,如果你的PC内存足够大,可以一起运行。$ x- D. ?1 C9 q
7 R* }% ]% H7 e+ u
在产生的不同Quartus II工程中,可以找到matrix_mult.v、vectorAdd.v和fft1d.v这些转换出的源码。特别注意的是,这些最终的源码是acl_kernel_inteRFace接口,这种接口比较简单,和FIFO差不多,只不过多了几个启动结束控制线,如start,valid等等。( G$ t& c; o6 W6 k9 j' ]% C
/ [( Z0 n% y+ Q6 z' V备注:大家可以把这些源码复制到自己的工程中和自己写的其它逻辑模块连接起来即可。如果想产生基于Stratix V器件优化的源码,可以在环境变量的路径中把台湾友晶的DE5-Net开发板作为虚拟板(也就是恢复第三步的环境变量),然后编译cl文件即可。6 Z- t( t' r1 ?( c
7 v( r! D3 A. L3 k+ Q" B
: |6 j8 Y0 ^. ^/ A+ z' [; C0 ?
8 l/ w: ]7 Q0 ]9 f3 O' r% d5.编译Host程序:# y* n1 w) c) U8 N
2 }" h, m- u) S e0 h2 {$ L Q
启动Visual Studio 2012,点击“文件打开项目”,选择C:\altera\13.1\hld\board\terasic\tests\boardtest\host\boardtest.sln(或者直接在硬盘上双击这个sln文件,VS 2012会自动完成上述步骤),然后点击“生成生成解决方案”,最后在……\host\x64\Release\下产生了boardtest.exe,不过这个exe不能运行,因为缺少几个dll文件,把C:\altera\13.1\hld\windows64\bin\下的所有的6个dll文件复制过来,和这个exe放在同一个文件夹下就可以运行了。
' ~% ? |: G+ u# n. d; `( c; J, [5 Q9 {' b4 W
' U, h+ O/ X; R
备注:没有开发板的客户可以跳过上面这个步骤。
' V6 j# e7 i! A0 F, X4 f3 j
a; O0 I5 _+ N! d8 z g! i
, x% M8 e, q. |) H+ Y5 v5 {9 o* [6.查看结果:
}2 M, A4 Y! p8 H
. b% l+ z3 d: G i- p
5 V' c1 Y- O N) D5 f 把第四步产生的aocx文件下载到开发板,成功后会返回信息,然后运行第五步产生的exe即可在PC屏幕上看到开发板返回的最终结果。. Y. B, u+ t7 S5 q3 p$ n2 v/ x
: x& D! m2 i5 o
4 j# N5 {, E: o( f5 H) M% W备注:没有开发板的客户可以跳过上面这个步骤。
8 C( T7 Y6 x0 H* A* @没有开发板的客户只需要走1、2、4步即可。
7 P$ W3 \6 V0 |4 h* o参考资料、例子和其它:
4 v3 E* V4 _; g" u6 e. C+ U% h3 P- ~* K9 ]9 u
3 M4 H/ z8 Z$ W' P3 _5 r/ _1.参考资料:http://www.altera.com.cn/product ... l/opencl-index.html1 N, a* l+ w1 n: A0 o8 d
网页最下面3个入门文档:( `: M' y9 Z1 A1 @# P
面向OpenCL的Altera SDK开始设计:aocl_getting_started.pdf
8 f/ F1 g# `1 R8 V; H% K# {$ s% j面向OpenCL的Altera SDK编程指南:aocl_programming_guide.pdf% b" v7 V0 B" s' e* |$ d
面向OpenCL的Altera SDK优化指南:aocl_optimization_guide.pdf. |. V6 c1 k" S% |' @
其中13.1版本对应的aocl_getting_started.pdf第8页是错的,PATH应该是C:\altera\13.1\hld\windows64\bin,14.0里面改正了。. R. F& F5 [- B# @ L5 E1 R
4 T. @' J7 ~! z& M3 T: L
% T) H/ J" g: h R- @5 J9 Y2 L2.Altera目前有13个OpenCL的例子在http://www.altera.com.cn/support/examples/opencl/opencl.html 里面,上面第4步用到的exm_opencl_hello_world_windows64.zip例子就来自于这个网页。
+ E, m# ^2 E) y" j$ v0 C) _
! M; r' E) V" f7 o% Z# H1 U0 F
" k1 s9 l- g. K# ~3.Cl文件是OpenCL的源码文件,aocx是cl文件编译后的编程文件,里面包括sof文件。PC机那边的Host软件不是必需的,做host软件仅仅是为了和开发板通信来获取开发板运行openCL的信息。没有开发板的用户只要写一个cl文件然后自己建立一个Quartus II工程就可以编译了,最后产生了转换后的.V源码和整个编译后的Quartus II完整工程,包括大量的底层配套的各种IP源码。
0 A1 d. S T+ }, [. H4 |) }
4 B: ]( j4 M1 Y. X- m% ~' z' H9 O4.因为事先设置了环境变量的缘故,所以cl文件放到任何路径下都可以编译,编译后会在cl文件所在的文件夹里面产生完整的Quartus II整个工程,里面就有转换后的.v文件。- _+ t+ M0 }, R. o) N& ^8 ?
0 c$ j1 [ h. A @
|
|