EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
转——软硬结合,scancode示例 , O+ x+ O% e5 ], N+ l
& r0 @; q% r# K& ^4 C本篇主要基于上两篇ps2keyboard控制器和vga控制器的基础上增加了一个基于mips32指令集只有20条指令的单周期cpu模块。实现一个在屏幕上显示PS2键盘扫描码的功能。 特别声明:本篇涉及的代码全部来源于《计算机原理与设计—verilog HDL》以及该书作者李亚民老师。我做的工作是尽可能理解这些代码的意思,并且将之简单解释清楚,文中的插图和文字是我自己书写的真实感悟,并未抄袭任何其他资料。同时,对代码中涉及到的时序、接口信号衔接等问题我也做了细致的比对和验证,最终在DE1-SOC开发板上实现了这些功能。此外,我将在后续的文章中,基于本文的工作增添自己需要的功能如中断机制,定时器等),在这个基本的单周期cpu上做自己的升华。希望感兴趣的各位同仁也能联系我,我们一起把这个diysoc做得越来越好。 9 ?/ Q3 d7 ~' ~( f% [
! O& X# E* P Z
1.20条整数指令介绍: add/sub/and/or/xor rd, rs, rt #rd < - - rs op rt sll / srl / sra rd, rt, sa # rd < -- rt shift sa lui rt, imm #rt < -- imm<<16 addi rt, rs ,imm #rt < -- rs + imm(符号拓展) andi/ori/xori rt, rs, imm #rt< -- rs op imm(零拓展) lw rt,offset(rs) # rt < -- memory[rs+offset] sw rt, offset(rs) #memory[rs+offset] < -- rt beq rs, rt, label #if (rs = = rs),PC< -- label bne rs, rt, label #if (rs != rs),PC< -- label j target #PC < --target jal target #r31 < -- PC+8 ; PC < -- target jr rs #PC < -- rs
) c2 V; S" D9 m8 _- Z/ U
; D( ^8 S7 J& p3 @/ y5 p
1)MIPS是32位CPU,所以指令的长度,操作数,寄存器的位数都是32位的。 2)共有32个寄存器,即r0~r31; r0的值恒为0x00000000,r31存返回地址。 3)rs, rt表示源操作寄存器, rd表示目标操作寄存器。例如 add r3,r4,r5 就是 (r4) &(r5)-- > r3, r4中的内容与r5中的内容赋值给r3这个寄存器。 4)sll/srl/sra r1,r2,8 # r2逻辑左移/逻辑右移/算数左移 8位赋值给r1 5) lui r3, 0x4000 把0x4000左移16位赋值给r3,置高16位数据。 通常后面跟一句 ori r3, r3,0x3476 马上做或运算。 两条运算拼起来就可以吧0x40003476这个数据完整赋值给r3了。 6) andi r1,r2,0x4768 立即数操作,操作数一个是如r2的寄存器号,一个是常数0x4768立即数。 7)lw r1,3(r4) lw(load words)读外部存储器 把(r4中的内容+3)这个地址中的数据读到r1中。 8) sw r1,3(r4) sw(store words) 写外部存储器 把r1的数据写到 ((r4)+3)这个地址中去。 9)beq r1,r3, loop1 如果r1等于r3,则程序调到loop1标号出的程序段。可以实现分支语句 10)bne r1,r3,loop1,同理,不相等则跳转。 11) j loop1 直接跳转到loop1那个位置 12)jal loop1 先把当前位置下一条指令的PC存到r31,然后跳转到loop1,然后如果在loop1程序段加一句 j r31, 就可以实现执行完子程序后自动返回到跳转之前的下一条指令执行了。" \7 w' G0 |- L( I# d
13)每一条汇编语句都对应了一条机器码,
( L$ Z7 l; |* s5 N这个格式会指导verilog编写的时候如何解析指令,进行操作。
% R% Y# T) d9 b0 d" ]
2下面来讲讲cpu代码和功能实现 上图列出了基本模块。 CPU和指令存储器连在一起,发一个pc地址,马上获得inst 指令。CPU右边端口包括和地址映射有关的io_rdn, 外部存储器的读写数据段d_f_mem,d_t_mem, 外部存储器的写控制端,wvram, 和外部存储器的地址端m_addr。不过具体和PS2,vga_c如何连在一起,会在后面讲如何连接。现在这里主要讲cpu内部的结构。 7 q7 N/ H* g3 F+ \/ T( Y
/ W! j, B( V L* h// instruction format wire [05:00] opcode = inst[31:26]; wire [04:00] rs = inst[25:21]; wire [04:00] rt = inst[20:16]; wire [04:00] rd = inst[15:11]; wire [04:00] sa = inst[10:06]; wire [05:00] func = inst[05:00]; wire [15:00] imm = inst[15:00]; wire [25:00] addr = inst[25:00]; wire sign = inst[15]; wire [31:00] offset = {{14{sign}},imm,2'b00}; wire [31:00] j_addr = {pc_plus_4[31:28],addr,2'b00}; ) X8 b( T6 U E8 G5 j* \
1)首先对inst进行解读,解析各个为的信息具体的是什么,存在具体的变量中。 // instruction decode wire i_add = (opcode == 6'h00) & (func == 6'h20); // add wire i_sub = (opcode == 6'h00) & (func == 6'h22); // sub wire i_and = (opcode == 6'h00) & (func == 6'h24); // and wire i_or = (opcode == 6'h00) & (func == 6'h25); // or wire i_xor = (opcode == 6'h00) & (func == 6'h26); // xor wire i_sll = (opcode == 6'h00) & (func == 6'h00); // sll wire i_srl = (opcode == 6'h00) & (func == 6'h02); // srl wire i_sra = (opcode == 6'h00) & (func == 6'h03); // sra wire i_jr = (opcode == 6'h00) & (func == 6'h08); // jr wire i_addi = (opcode == 6'h08); // addi wire i_andi = (opcode == 6'h0c); // andi wire i_ori = (opcode == 6'h0d); // ori wire i_xori = (opcode == 6'h0e); // xori wire i_lw = (opcode == 6'h23); // lw wire i_sw = (opcode == 6'h2b); // sw wire i_beq = (opcode == 6'h04); // beq wire i_bne = (opcode == 6'h05); // bne wire i_lui = (opcode == 6'h0f); // lui wire i_j = (opcode == 6'h02); // j wire i_jal = (opcode == 6'h03); // jal
* m, V" K5 L, D% l& M: ^8 c& l4 a ; G; {3 C' x# k/ [
2)解析操作码和功能码具体代表什么操作,赋值给操作指令的变量,i_add,i_sub之类的变量。如果i_add置1了,则说明指令希望cpu做加法操作。 6 {9 u; Y+ e2 G$ T2 A% S% Z
always @(*) begin alu_out = 0; // alu output dest_rn = rd; // dest reg number wreg = 0; // write regfile wmem = 0; // write memory (sw) rmem = 0; // read memory (lw) next_pc = pc_plus_4; case (1'b1) i_add: begin // add alu_out = a + b; wreg = 1; end i_sub: begin // sub alu_out = a - b; wreg = 1; end i_and: begin // and alu_out = a & b; wreg = 1; end i_or: begin // or alu_out = a | b; wreg = 1; end i_xor: begin // xor ' Z+ J5 D# i) D% @ R# ~, t
3)组合逻辑,一路Case下去,执行对应的操作,如果i_add置1,则做加法操作,令alu_out =a+b;
7 Q" ?7 D: `5 o// data written to register file wire [31:0] data_2_RF = i_lw ? d_f_mem : alu_out; // register file reg [31:0] regfile [1:31]; // $1 - $31 wire [31:0] a = (rs==0) ? 0 : regfile[rs]; // read port wire [31:0] b = (rt==0) ? 0 : regfile[rt]; // read port always @ (posedge clk) begin if (wreg && (dest_rn != 0)) begin regfile[dest_rn] <= data_2_rf; // write port end end
3 t7 m( V) }, E* g# J+ _, c I9 T; n5 _6 h/ q1 H. p2 ^* R
4)r0~r31寄存器堆的读写。定义了1-31个regfile寄存器。如果wreg写寄存器信号1,且dest_rn目标寄存器号(即rd)不为0,则写入数据。data_2_rf一般情况都是alu_out。但在i_lw(从外部存储器取数)这条指令情况下,为外部存储器读到的数据。
/ s6 U2 Y* p- v E' N
7 ]0 m4 |; ^1 ^. }3 U e9 b# v Z% O
5)下面讲讲pc的变化。 2 Z4 d' i* n; a, G9 c' j1 ?+ O
reg [31:0] pc; always @ (posedge clk or negedge clrn) begin if (!clrn) pc <= 0; else pc <= next_pc; end
/ e% E, t- W* Z5 k$ F
/ \9 t; h; A( L2 B, J一般情况pc=next_pc=pc+4; 3 W! u/ _+ P9 o1 }$ Y( s
在跳转指令的情况下,next_pc由具体inst指令计算得出 $ K* G8 d& Q" ?; l: G
i_bne: begin // bne if (a != b) next_pc = pc_plus_4 + offset; end
( c- h" C+ D2 K1 n1 H4 W
/ w- F: k1 R+ j" i" Y- B' y3 s(6)下面讲讲地址映射,与外部存储器和io相关的几个信号: m_addr,d_f_mem, d_t_mem, write, io_rdn, io_wrn,rvram, wvram。这几个信号比较关键,如果以后大家需要应用这个cpu接自己的设备就需要在这几个信号上稍微做一些变化,就可以把自己的controller搭载到这套cpu机制上去啦。希望越来越多的人能够喜欢并且把这套机制运用起来。(ps: 虽然已经有nios, ARM之类现成的soc机制,但是如果能够自己用纯verilog实现soc并且慢慢堆积controller做大做强,这难道不是我们学习verilog是最初的梦想吗?haha)
9 h2 S D: o) A; D$ A$ w- u向外部存储器写数据。涉及到d_t_mem, m_addr, wvram。就是数据信号,地址信号,写使能信号。(这些都是必须的)
( I4 D. m! G# L P7 c D1 a- V涉及到的指令为sw, 如sw r1,4(r3)。 我们现在都知道它执行的操作时 r1-- >memory[r3+4]。 具体执行时是这样的,如果是sw指令,且r3+4的地址确实是有定义了的。则wvram置1, m_addr是 r3+4的计算结果作为存储地址。 d_t_mem是r1中的数据,作为存储的数据。
, h# E |0 Z) o1 J8 v; {: V* l5 dm_addr 看下面,执行sw指令时,cpu先计算一下alu_out=r3+4算出地址。然后把alu_out告诉m_addr i_sw: begin // sw alu_out = a +{{16{sign}},imm}; wmem = 1; end . c+ z: r0 P8 v; z4 j' M
assign m_addr = alu_out; // memory address - {9 n! o/ g6 z/ j; z
wvram 有了地址后,外部有没有实际对应存储器呢?这个要看设计者,后面为了显示在显示器上,我们定义了一个vram(显存),地址是0xc0000_0000 – 0xdfff_ffff。所以用一下代码,标识当地址最高三位为110时,也就是110x_xxxx, vr_space说明地址正确。 wire vr_space = alu_out[31] & alu_out[30] &~alu_out[29];
# I& o5 i$ g7 N" u当然,代码也可以写成 wire vr_space = ((alu_out <=32’hdfff_ffff)&& (alu_out>=32’hc000_0000)), 思路清楚,但略微费些逻辑资源。 1 R: o7 _$ e" n. u2 ~+ i
' W V- B: a0 I4 B7 u5 v
; A" h! g/ Y% `& I' N1 k最后赋值给写使能信号wvram,下面这条说的是指令有些外部存储器操作(sw),且写的地址也对,那就把wvram置1吧。 assign wvram = wmem & vr_space; // video ram write $ u3 u, l3 |8 d
! i, e0 }; g K3 o
d_t_mem wire [31:0] b = (rt==0) ? 0 : regfile[rt]; assign d_t_mem = b; d_t_mem就是rt寄存器中的数据,swr1,4(r3)这个例子中就是r1寄存器的数据啦。
3 l5 Z9 A- O: Z: j( E7 f2 |) N) i/ _( [4 X$ _0 x, A D0 L
从外部存储器读数据。涉及到d_f_mem, m_addr, rvram。就是数据信号,地址信号,写使能信号。(这些都是必须的) 有了前面的基础,从外部存储器读也是一样的事情了。 涉及到的指令为lw, 如lw r1,4(r3)。 我们现在都知道它执行的操作时 memory[r3+4]-- > r1 具体执行时是这样的,如果检测到lw指令,且r3+4中的地址确实是有定义了的。则rvram置1,m_addr是 r3+4的计算结果作为存储地址。 d_f_mem赋值给r1,作为得到的外部数据。 相关的代码为 rvram wire vr_space = alu_out[31]& alu_out[30] &~alu_out[29]; + X# F8 N1 B" ]% n" t& S
3 l7 ]8 @! o7 ?) f( O
i_lw: begin // lw alu_out = a +{{16{sign}},imm}; dest_rn = rt; rmem = 1; wreg = 1; end 6 n* y; g9 s- |4 d3 R. f5 i2 Q
assign rvram = rmem & vr_space; ( |* ~1 d$ q: k% Z8 r8 U
m_addr: assignm_addr = alu_out; ) P% ]# T' |7 b1 l# @. i
d_f_mem:
3 {4 C7 V3 j H6 E( Y; {: Xwire [31:0] data_2_rf = i_lw? d_f_mem : alu_out;
& s; S8 M" m1 Q& Q插一句,操作外部设备时,有时候控制器的读写使能信号是低电平有效,比如我们的ps2_keyboard, 是rdn,所以cpu中的读写使能位要稍微变一下。
; g$ u! ^. S& e+ c5 d, ^; z5 `$ kassign io_rdn = ~(rmem &io_space); // i/o read assignio_wrn = ~(wmem & io_space); // i/o write
1 {& O7 X8 I3 t: D6 @- U( m对于读写使能信号的操作,目前来说是把0x0000_0000 ~0xffff_ffff全地址分成一块一块,然后对应地址对应不同读写使能信号。也就是说有几个设备(存储器,i/o等)就要有几个读写使能位。将来,读者还可以把这个机制稍微封装一下,用总线来整体控制,这样效果会更好。
( Z, X0 W5 |; m
7 Y! s& W1 ^9 h5 C
: x4 _* y2 f/ X4 H) t8 R, d) `
特别要讲一下时序!!! a)整个cpu部分代码,就只有两个地方有时序逻辑。第1处,每个时钟周期(20ns),pc更新一次。写寄存器堆时。寄存器堆的读写是同步写,异步读。写寄存器堆时,由于是时序逻辑,则这条指令中存的数据会在下条指令运行开始真正存入。但是由于读寄存器是组合逻辑,则下条指令如果要读上条指令的数据也完全没问题了。
2 |# D6 @1 L5 X4 {第1处: always @ (posedge clk or negedge clrn)begin if (!clrn) pc <= 0; else pc <= next_pc; end
: B8 n0 W8 f3 \第2处: wire [31:0] a = (rs==0) ? 0 : regfile[rs]; // read port wire [31:0] b = (rt==0) ? 0 :regfile[rt]; // read port always @ (posedge clk) begin if (wreg && (dest_rn != 0)) begin regfile[dest_rn] <= data_2_rf; // write port end end * d# [) U* O( }
b)读外部数据时 注意外部存储器的时钟的设置。 写时钟:频率可以和系统时钟(50MHZ)一样。 读时钟:可以是异步读。如果是同步读的话读时钟要么在系统时钟相移90度。要么频率大于系统时钟。读时钟如果和系统时钟一样,会导致有效数据卡死在门里面,无法正确进入寄存器堆。
$ m9 d/ l$ Y. G. _8 f) V; m" n. ?& h 另外,ps2_keyboard controller的读比较特殊,是对fifo的读,不需要提供地址,本例中ps2_keyboard中的fifo是异步读的,所以完全可以满足cpu读数据的需求。
* D5 Z! p' o$ x# d9 |4 K* s; G0 O( e5 M
s( m9 _/ j' d* c- I2 C) }2 @" \7 G; C* }0 Q
至此,cpu部分就介绍的差不多了。总结一下,该cpu实现了20条mips指令的功能。并且具有外部存储器和i/o设备的拓展能力。
3 Z5 ~3 M( \+ z( E
+ `" _, b, H9 E2 Z A% h
第二部分:外部IO设备的挂接 0 {9 L% |: m* o7 f- H, o h; B
% g- e" A' q5 U+ E; {( x
/ E* ^1 K$ `4 Z+ X' ?4 Q% A1. ps2键盘的外接。把io_rdn接入rdn;把data,ready拼接后连接至d_f_m (data from memory)。 / p1 C( u& K5 m, k
定义ps2_keyboard的地址为0xa0000000。 即使用 lui $1, 0xa000 ($1和r1是一个意思) lw $2, 0(r1) 两句话就可以是io_rdn置低,并且读到fifo中的数据。读到之后判断ready为1时,才是有效的data数据,否则则舍去。 7 g+ H* Y' Z: t5 h* I! t3 q
(这种要求cpu不断读数据才能知道是否有有有效数据的方法将在后面的文章中将被中断机制替代,即ready为1时自动触发中断,程序跳入中断服务程序)。
* n. q6 C) P6 R' b x% T+ `4 v ~; x! I) P
$ B( @( p8 R" q7 ^
# A& K0 ^' G6 Q+ @( ?2. vga显示器的外接。在《VGA的图片显示》一文中已经提出了使用一个显示存储器的方法来保存需要处理的数据。为了在vga屏幕上显示字符。需要涉及到取模,和vga的字符显示模块设计。 ! q% ?, T8 A( f: v3 I- l2 \
0 y2 |/ ~. h5 E: Y上图是这里用font_table和char_ram拼成一个vram显存空间。具体如下,640*480的vga显示空间,定义8*8点阵字库。
* m9 |. d+ M9 n# a5 [% cfont_table模块 font_table中存入了每个ascii 字符对应的点阵数据: 输入信息为:ascii ascii码 row: 字库行地址 0-7 col:字库列地址 0-7 输出信息为:0/1 0表示蓝色,1表示白色。为了减少存储器占用大小。 " ~" R6 U w8 u+ l, N4 v9 V
charram 是显存模块。字符形式下,vga上能显示80行60列字符数据。因此charram的大小为80*60=4800个地址,每个地址大小为7位,用于存ascii码数值。值得一提的是,为了满足cpu的读写时序,char ram这个存储器最好是“同步写,异步读”的存储器。如果实在不能做到(因为如果要使用片内memory bit只能通过同步写同步读的方式引用),也可以同步写同步读,只要把读时钟为系统时钟的2倍频就可以了。本例使用同步写,异步读的方式。 # c. C; C1 H4 ?: D% c4 t
上图展示的是在正常情况下,vga_c向显存请求数据并显示的流程。注意char_ram和font_table都被定义为异步读,即组合逻辑。vga_c向显存提交要显示的地址row(0-479), col(0-639)。char_ram拿到row[8:3],col[9:3]并计算出线性排列后的地址 char_addr[12:0]=row[8:3]*80+col[9:3],输出对应ascii码,font_table获得ascii码和row[2:0],col[2:0]字库地址后,输出1或0在该位显示的颜色值。交给vga_c显示。 5 y- Q9 a; P# X) O8 B
3 m# X( i0 B2 _
$ F- @: F9 E0 J9 X与cpu的对接: 3 M1 q3 i: u& c, \* p
$ F7 T: H: P% ` I
把wram写信号接到char_ram write端,把d_t_mem信号接入到data_in端。由于d_f_m的数据源有ps2和char ram两个,故此设置了一个数据选择器,用io_rdn作控制端。 char_ram的address信号也有连个源,平常情况下有vga_c提供地址,而在cpu需要写显存使由m_addr提供地址。故此处也设置了一个数据选择器,用wram来做控制信号。 : O a- r8 `% N2 M+ v& N" S
定义char_ram的地址为:c0000000 – dfffffff 既可以通过类似如下代码: lui $3, 0xc000 addi $7, $0, 0x7F # del sw $7, 0 ($3) 来在屏幕第一个位置显示一个字符 - ]# J' ]) q4 s$ @: {
7 V5 t# R3 z" H
6 P# v1 C% F5 |& a/ ^至此,硬件部分全部设置好了。 $ ~$ @" H- i. }0 R7 E# \
& J- v' C$ Q1 J9 a; F! h8 B. d) V/ w
第三部分:ps2键盘显示扫描码的软件部分
9 z1 k5 Z9 R' R/ j.text # code segment main: lui $3, 0xc000 #显存首地址: c0000000 - dfffffff lui $4, 0xa000 # ps2键盘地址:a0000000 read_kbd: lw $5, 0($4) # 读键盘数据 {0,ready,byte} andi $6, $5, 0x100 # $6 =ready beq $6, $0, read_kbd # if ready==0,继续read_kbd andi $6, $5, 0xff #如果ready=1,则令$6==data srl $5, $6, 4 # $5=($6>>4)取高四位数据。 addi $7, $5, -10 #$7=$5-10 srl $7, $7, 31 #$7=($7>>31) beq $7, $0, abcdef1 # $7=0,则表示数据大于10,肯定是字母。反之显示数字 addi $5, $5, 0x30 #加上0的ascii起始值 j print1 abcdef1: addi $5, $5, 0x37 # 加上a的ascii起始值 print1: jal display # 显示字符 andi $5, $6, 0xf # 显示第二位 addi $7, $5, -10 srl $7, $7, 31 beq $7, $0, abcdef2 addi $5, $5, 0x30 # to ascii[0-9] j print2 abcdef2: addi $5, $5, 0x37 # to ascii[a-f] print2: jal display # 显示第二为数据 addi $5, $0, 0x20 # 打印空格 print3: jal display # display char j read_kbd # check next display: sw $5, 0($3) #显示字符 addi $3, $3, 4 #把地址加4 jr $ra #返回 .end
0 [" i5 }* K1 n) l. L8 ]* y最后通过汇编器得到机器码,并存到指令存储器中。即可得到最后效果。 + C1 t7 a* U6 C7 U
第四部分:效果 / y( \2 a3 m5 Q9 C
scancode demo视频 http://pan.baidu.com/s/1mgxcH6K
/ U2 n- z0 Y! h7 C. N
moveblock demo视频 http://pan.baidu.com/s/1i3J340X 在scancode软件的基础之上,我又自己写了一个可以用键盘控制移动小方块的程序,上面是演示视频。
) _6 K/ R2 D8 n% u/ e1 } |