FPGA重点知识13条，助你构建完整“逻辑观”之一

gaoxings · 发表于 2018-12-10 10:09

EDA365欢迎您登录！

您需要登录才可以下载或查看，没有帐号？注册

x

FPGA重点知识13条，助你构建完整“逻辑观”之一1、查找表LUT和编程方式
第一部分：查找表LUT
FPGA是在PAL、GAL、EPLD、cpld等可编程器件的基础上进一步发展的产物。它是作为ASIC领域中的一种半定制电路而出现的，即解决了定制电路的不足，又克服了原有可编程器件门电路有限的缺点。

由于FPGA需要被反复烧写，它实现组合逻辑的基本结构不可能像ASIC那样通过固定的与非门来完成，而只能采用一种易于反复配置的结构。查找表可以很好地满足这一要求，目前主流FPGA都采用了基于SRAM工艺的查找表结构，也有一些军品和宇航级FPGA采用Flash或者熔丝与反熔丝工艺的查找表结构。通过烧写文件改变查找表内容的方法来实现对FPGA的重复配置。

根据数字电路的基本知识可以知道，对于一个n输入的逻辑运算，不管是与或非运算还是异或运算等等，最多只可能存在2n种结果。所以如果事先将相应的结果存放于一个存贮单元，就相当于实现了与非门电路的功能。FPGA的原理也是如此，它通过烧写文件去配置查找表的内容，从而在相同的电路情况下实现了不同的逻辑功能。

查找表（Look-Up-Table）简称为LUT，LUT本质上就是一个RAM。目前FPGA中多使用4输入的LUT，所以每一个LUT可以看成一个有 4位地址线的的RAM。当用户通过原理图或HDL语言描述了一个逻辑电路以后，PLD/FPGA开发软件会自动计算逻辑电路的所有可能结果，并把真值表（即结果）事先写入 RAM，这样，每输入一个信号进行逻辑运算就等于输入一个地址进行查表，找出地址对应的内容，然后输出即可。

下面给出一个4与门电路的例子来说明LUT实现逻辑功能的原理。

例1-1：给出一个使用LUT实现4输入与门电路的真值表。

从中可以看到，LUT具有和逻辑电路相同的功能。实际上，LUT具有更快的执行速度和更大的规模。

第二部分：编程方式
由于基于LUT的FPGA具有很高的集成度，其器件密度从数万门到数千万门不等，可以完成极其复杂的时序与逻辑组合逻辑电路功能，所以适用于高速、高密度的高端数字逻辑电路设计领域。其组成部分主要有可编程输入/输出单元、基本可编程逻辑单元、内嵌SRAM、丰富的布线资源、底层嵌入功能单元、内嵌专用单元等，主要设计和生产厂家有Xilinx、Altera、Lattice、Actel、Atmel和QuickLogic等公司，其中最大的是 Xilinx、Altera、Lattice三家。

FPGA是由存放在片内的RAM来设置其工作状态的，因此工作时需要对片内RAM进行编程。用户可根据不同的配置模式，采用不同的编程方式。FPGA有如下几种配置模式：
1、并行模式：并行PROM、Flash配置FPGA；
2、主从模式：一片PROM配置多片FPGA；
3、串行模式：串行PROM配置FPGA；
4、外设模式：将FPGA作为微处理器的外设，由微处理器对其编程。

目前，FPGA市场占有率最高的两大公司Xilinx和Altera生产的FPGA都是基于SRAM工艺的，需要在使用时外接一个片外存储器以保存程序。上电时，FPGA将外部存储器中的数据读入片内RAM，完成配置后，进入工作状态；掉电后FPGA恢复为白片，内部逻辑消失。这样FPGA不仅能反复使用，还无需专门的FPGA编程器，只需通用的EPROM、PROM编程器即可。Actel、QuickLogic等公司还提供反熔丝技术的FPGA，只能下载一次，具有抗辐射、耐高低温、低功耗和速度快等优点，在军品和航空航天领域中应用较多，但这种FPGA不能重复擦写，开发初期比较麻烦，费用也比较昂贵。Lattice是ISP技术的发明者，在小规模PLD应用上有一定的特色。早期的Xilinx产品一般不涉及军品和宇航级市场，但目前已经有Q Pro-R等多款产品进入该类领域。

2、FPGA芯片结构
目前主流的FPGA仍是基于查找表技术的，已经远远超出了先前版本的基本性能，并且整合了常用功能（如RAM、时钟管理和DSP）的硬核（ASIC型）模块。如图1-1所示（注：图1-1只是一个示意图，实际上每一个系列的FPGA都有其相应的内部结构），FPGA芯片主要由6部分完成，分别为：可编程输入输出单元、基本可编程逻辑单元、完整的时钟管理、嵌入块式RAM、丰富的布线资源、内嵌的底层功能单元和内嵌专用硬件模块。

每个模块的功能如下：

1.可编程输入输出单元（IOB）
可编程输入/输出单元简称I/O单元，是芯片与外界电路的接口部分，完成不同电气特性下对输入/输出信号的驱动与匹配要求，其示意结构如图1-2所示。 FPGA内的I/O按组分类，每组都能够独立地支持不同的I/O标准。通过软件的灵活配置，可适配不同的电气标准与I/O物理特性，可以调整驱动电流的大小，可以改变上、下拉电阻。目前，I/O口的频率也越来越高，一些高端的FPGA通过DDR寄存器技术可以支持高达2Gbps的数据速率。

外部输入信号可以通过IOB模块的存储单元输入到FPGA的内部，也可以直接输入FPGA 内部。当外部输入信号经过IOB模块的存储单元输入到FPGA内部时，其保持时间（Hold Time）的要求可以降低，通常默认为0。

为了便于管理和适应多种电器标准，FPGA的IOB被划分为若干个组（bank），每个bank的接口标准由其接口电压VCCO决定，一个bank只能有一种VCCO，但不同bank的VCCO可以不同。只有相同电气标准的端口才能连接在一起，VCCO电压相同是接口标准的基本条件。

2．可配置逻辑块（CLB）
CLB是FPGA内的基本逻辑单元。CLB的实际数量和特性会依器件的不同而不同，但是每个CLB都包含一个可配置开关矩阵，此矩阵由4或6个输入、一些选型电路（多路复用器等）和触发器组成。开关矩阵是高度灵活的，可以对其进行配置以便处理组合逻辑、移位寄存器或RAM。在Xilinx公司的FPGA器件中，CLB由多个（一般为4个或2个）相同的Slice和附加逻辑构成，如图1-3所示。每个CLB模块不仅可以用于实现组合逻辑、时序逻辑，还可以配置为分布式RAM和分布式ROM。

Slice是Xilinx公司定义的基本逻辑单位，其内部结构如图1-4所示，一个Slice由两个4输入的函数、进位逻辑、算术逻辑、存储逻辑和函数复用器组成。算术逻辑包括一个异或门（XORG）和一个专用与门（MULTAND），一个异或门可以使一个Slice实现 2bit全加操作，专用与门用于提高乘法器的效率；进位逻辑由专用进位信号和函数复用器（MUXC）组成，用于实现快速的算术加减法操作；4输入函数发生器用于实现4输入LUT、分布式RAM或16比特移位寄存器（Virtex-5系列芯片的Slice中的两个输入函数为6输入，可以实现6输入LUT或 64比特移位寄存器）；进位逻辑包括两条快速进位链，用于提高CLB模块的处理速度

3．数字时钟管理模块（DCM）
业内大多数FPGA均提供数字时钟管理（Xilinx的全部FPGA均具有这种特性）。Xilinx推出最先进的FPGA提供数字时钟管理和相位环路锁定。相位环路锁定能够提供精确的时钟综合，且能够降低抖动，并实现过滤功能。

4．嵌入式块RAM（BRAM）
大多数FPGA都具有内嵌的块RAM，这大大拓展了FPGA的应用范围和灵活性。块RAM可被配置为单端口RAM、双端口RAM、内容地址存储器（CAM）以及FIFO等常用存储结构。RAM、FIFO是比较普及的概念，在此就不冗述。CAM存储器在其内部的每个存储单元中都有一个比较逻辑，写入 CAM中的数据会和内部的每一个数据进行比较，并返回与端口数据相同的所有数据的地址，因而在路由的地址交换器中有广泛的应用。除了块RAM，还可以将 FPGA中的LUT灵活地配置成RAM、ROM和FIFO等结构。在实际应用中，芯片内部块RAM的数量也是选择芯片的一个重要因素。

例如：单片块RAM的容量为18k比特，即位宽为18比特、深度为1024，可以根据需要改变其位宽和深度，但要满足两个原则：首先，修改后的容量（位宽深度）不能大于18k比特；其次，位宽最大不能超过36比特。当然，可以将多片块RAM级联起来形成更大的RAM，此时只受限于芯片内块RAM的数量，而不再受上面两条原则约束

5．丰富的布线资源
布线资源连通FPGA内部的所有单元，而连线的长度和工艺决定着信号在连线上的驱动能力和传输速度。
FPGA芯片内部有着丰富的布线资源，根据工艺、长度、宽度和分布位置的不同而划分为４类不同的类别。第一类是全局布线资源，用于芯片内部全局时钟和全局复位/置位的布线；第二类是长线资源，用以完成芯片 Bank间的高速信号和第二全局时钟信号的布线；第三类是短线资源，用于完成基本逻辑单元之间的逻辑互连和布线；第四类是分布式的布线资源，用于专有时钟、复位等控制信号线。

在实际中设计者不需要直接选择布线资源，布局布线器可自动地根据输入逻辑网表的拓扑结构和约束条件选择布线资源来连通各个模块单元。从本质上讲，布线资源的使用方法和设计的结果有密切、直接的关系。

6．底层内嵌功能单元
内嵌功能模块主要指DLL（Delay Locked Loop）、PLL（Phase Locked Loop）、DSP和CPU等软处理核（Soft Core）。现在越来越丰富的内嵌功能单元，使得单片FPGA成为了系统级的设计工具，使其具备了软硬件联合设计的能力，逐步向SOC平台过渡。

DLL和PLL具有类似的功能，可以完成时钟高精度、低抖动的倍频和分频，以及占空比调整和移相等功能。Xilinx公司生产的芯片上集成了 DLL，Altera公司的芯片集成了PLL，Lattice公司的新型芯片上同时集成了PLL和DLL。PLL 和DLL可以通过IP核生成的工具方便地进行管理和配置。DLL的结构如图1-5所示。

7. 内嵌专用硬核
内嵌专用硬核是相对底层嵌入的软核而言的，指FPGA处理能力强大的硬核（Hard Core），等效于ASIC电路。为了提高FPGA性能，芯片生产商在芯片内部集成了一些专用的硬核。例如：为了提高FPGA的乘法速度，主流的FPGA 中都集成了专用乘法器；为了适用通信总线与接口标准，很多高端的FPGA内部都集成了串并收发器（SERDES），可以达到数十Gbps的收发速度。  Xilinx公司的高端产品不仅集成了Power PC系列CPU，还内嵌了DSP Core模块，其相应的系统级设计工具是EDK和Platform Studio，并依此提出了片上系统（System on Chip）的概念。通过PowerPC、Miroblaze、Picoblaze等平台，能够开发标准的DSP处理器及其相关应用，达到SOC的开发目的。

（1）软核
软核在EDA设计领域指的是综合之前的寄存器传输级（RTL）模型；具体在FPGA设计中指的是对电路的硬件语言描述，包括逻辑描述、网表和帮助文档等。软核只经过功能仿真，需要经过综合以及布局布线才能使用。其优点是灵活性高、可移植性强，允许用户自配置；缺点是对模块的预测性较低，在后续设计中存在发生错误的可能性，有一定的设计风险。软核是IP核应用最广泛的形式。

（2）固核
固核在EDA设计领域指的是带有平面规划信息的网表；具体在FPGA设计中可以看做带有布局规划的软核，通常以RTL代码和对应具体工艺网表的混合形式提供。将RTL描述结合具体标准单元库进行综合优化设计，形成门级网表，再通过布局布线工具即可使用。和软核相比，固核的设计灵活性稍差，但在可靠性上有较大提高。目前，固核也是IP核的主流形式之一。

（3）硬核
硬核在EDA设计领域指经过验证的设计版图；具体在FPGA设计中指布局和工艺固定、经过前端和后端验证的设计，设计人员不能对其修改。不能修改的原因有两个：首先是系统设计对各个模块的时序要求很严格，不允许打乱已有的物理版图；其次是保护知识产权的要求，不允许设计人员对其有任何改动。IP硬核的不许修改特点使其复用有一定的困难，因此只能用于某些特定应用，使用范围较窄。

3、比较CPLD和FPGA

一.基于乘积项（Product-Term)的PLD结构
采用这种结构的PLD芯片有：Altera的MAX7000，MAX3000系列（EEPROM工艺）,Xilinx的XC9500系列（Flash工艺）和Lattice,Cypress的大部分产品（EEPROM工艺）

我们先看一下这种PLD的总体结构（以MAX7000为例，其他型号的结构与此都非常相似）：

图1 基于乘积项的PLD内部结构

这种PLD可分为三块结构：宏单元（Marocell)，可编程连线（PIA)和I/O控制块。宏单元是PLD的基本结构，由它来实现基本的逻辑功能。图1中兰色部分是多个宏单元的集合（因为宏单元较多，没有一一画出）。可编程连线负责信号传递，连接所有的宏单元。I/O控制块负责输入输出的电气特性控制，比如可以设定集电极开路输出，摆率控制，三态输出等。图1 左上的INPUT/GCLK1，
INPUT/GCLRn,INPUT/OE1,INPUT/OE2 是全局时钟，清零和输出使能信号，这几个信号有专用连线与PLD中每个宏单元相连，信号到每个宏单元的延时相同并且延时最短。
宏单元的具体结构见下图：

图2 宏单元结构

左侧是乘积项阵列，实际就是一个与或阵列，每一个交叉点都是一个可编程熔丝，如果导通就是实现“与”逻辑。后面的乘积项选择矩阵是一个“或”阵列。两者一起完成组合逻辑。图右侧是一个可编程D触发器，它的时钟，清零输入都可以编程选择，可以使用专用的全局清零和全局时钟，也可以使用内部逻辑（乘积项阵列）产生的时钟和清零。如果不需要触发器，也可以将此触发器旁路，信号直接输给PIA或输出到I/O脚。

二.乘积项结构PLD的逻辑实现原理
下面我们以一个简单的电路为例,具体说明PLD是如何利用以上结构实现逻辑的，电路如下图：

图3

假设组合逻辑的输出(AND3的输出)为f，则f=(A+B)*C*(!D)=A*C*!D + B*C*!D ( 我们以!D表示D的“非”）

PLD将以下面的方式来实现组合逻辑f:

图4

A,B,C,D由PLD芯片的管脚输入后进入可编程连线阵列（PIA)，在内部会产生A,A反,B,B反,C,C反,D,D反8个输出。图中每一个叉表示相连（可编程熔丝导通），所以得到：f= f1 + f2 = (A*C*!D) +
(B*C*!D) 。这样组合逻辑就实现了。图3电路中D触发器的实现比较简单，直接利用宏单元中的可编程D触发器来实现。时钟信号CLK由I/O脚输入后进入芯片内部的全局时钟专用通道，直接连接到可编程触发器的时钟端。可编程触发器的输出与I/O脚相连，把结果输出到芯片管脚。这样PLD就完成了图3所示电路的功能。（以上这些步骤都是由软件自动完成的，不需要人为干预）

图3的电路是一个很简单的例子，只需要一个宏单元就可以完成。但对于一个复杂的电路，一个宏单元是不能实现的，这时就需要通过并联扩展项和共享扩展项将多个宏单元相连，宏单元的输出也可以连接到可编程连线阵列，再做为另一个宏单元的输入。这样PLD就可以实现更复杂逻辑。

这种基于乘积项的PLD基本都是由EEPROM和Flash工艺制造的，一上电就可以工作，无需其他芯片配合。

PGA的基本工作原理
FPGA是在PAL、GAL、EPLD、CPLD等可编程器件的基础上进一步发展的产物。它是作为ASIC领域中的一种半定制电路而出现的，即解决了定制电路的不足，又克服了原有可编程器件门电路有限的缺点。

由于FPGA需要被反复烧写，它实现组合逻辑的基本结构不可能像ASIC那样通过固定的与非门来完成，而只能采用一种易于反复配置的结构。查找表可以很好地满足这一要求，目前主流FPGA都采用了基于SRAM工艺的查找表结构，也有一些军品和宇航级FPGA采用Flash或者熔丝与反熔丝工艺的查找表结构。通过烧写文件改变查找表内容的方法来实现对FPGA的重复配置。

根据数字电路的基本知识可以知道，对于一个n输入的逻辑运算，不管是与或非运算还是异或运算等等，最多只可能存在2n种结果。所以如果事先将相应的结果存放于一个存贮单元，就相当于实现了与非门电路的功能。FPGA的原理也是如此，它通过烧写文件去配置查找表的内容，从而在相同的电路情况下实现了不同的逻辑功能。

查找表的原理与结构
查找表(Look-Up-Table)简称为LUT，LUT本质上就是一个RAM。目前FPGA中多使用4输入的LUT，所以每一个LUT可以看成一个有4位地址线的的RAM。当用户通过原理图或HDL语言描述了一个逻辑电路以后，
PLD/FPGA开发软件会自动计算逻辑电路的所有可能结果，并把真值表(即结果)事先写入RAM，这样，每输入一个信号进行逻辑运算就等于输入一个地址进行查表，找出地址对应的内容，然后输出即可。

下面给出一个四输入与非门电路的例子来说明LUT实现逻辑功能的原理。
表给出一个使用LUT实现四输入与门电路的真值表。

表输入与门的真值表

从中可以看到，LUT具有和逻辑电路相同的功能。实际上，LUT具有更快的执行速度和更大的规模。

3.1.2查找表结构的FPGA逻辑实现原理
我们还是以这个电路的为例：

图四输入与门电路图

A，B，C，D由FPGA芯片的管脚输入后进入可编程连线，然后作为地址线连到到LUT，LUT中已经事先写入了所有可能的逻辑结果，通过地址查找到相应的数据然后输出，这样组合逻辑就实现了。该电路中D触发器是直接利用LUT后面D触发器来实现。时钟信号CLK由I/O脚输入后进入芯片内部的时钟专用通道，直接连接到触发器的时钟端。触发器的输出与I/O脚相连，把结果输出到芯片管脚。这样PLD就完成了图所示电路的功能。(以上这些步骤都是由软件自动完成的，不需要人为干预)

这个电路是一个很简单的例子，只需要一个LUT加上一个触发器就可以完成。对于一个LUT无法完成的的电路，就需要通过进位逻辑将多个单元相连，这样FPGA就可以实现复杂的逻辑。

因为基于LUT的FPGA具有很高的集成度，其器件密度从数万门到数千万门不等，可以完成极其复杂的时序与逻辑组合逻辑电路功能，所以适用于高速、高密度的高端数字逻辑电路设计领域。其组成部分主要有可编程输入/输出单元、基本可编程逻辑单元、内嵌SRAM、丰富的布线资源、底层嵌入功能单元、内嵌专用单元等，主要设计和生产厂家有Xilinx、Altera、Lattice、Actel、Atmel和QuickLogic等公司，其中最大的是Xilinx、Altera、Lattice三家。

4、比较Xilinx和Altera
要比较Xilinx和Altera的FPGA，就要清楚两个大厂FPGA的结构，由于各自设计的不同，两家的FPGA结构各不相同，参数也各不相同，但可以统一到LUT(Look-Up-Table)查找表上。
下图就是A家的Cyclone IV系列片子的参数：

Altera Cyclone IV 系列资源比较

可以看到，A家的片子，用的是LE这个术语。

而下图是X家的Spartan-6 片子资料:

Xilinx Spartan-6 系列资源比较

X家用的是CLB这个术语作为基本单元。

再看看两家的基本单元有何不同：

A家的LE如下图：

Cyclone LE 结构

就是一个4输入LUT+FF构成

而X家的CLB如下:

xilinx CLB 结构

一个CLB由2个SLICE构成，一个SLICE含有4个6输入LUT，所以LUT=8*CLB。

Xilinx CLB 包含的 Slices LUT FF

这样的话，可以较比一下。EP4CE6基本就和XC6SLX9一个级别。。。。当然A家的片子是4输入LUT远比不上X家的6输入LUT。而X家的S-6片子，一个Slice内部有4个lut，8个FF。简而言之，一个Slice=四个LE。要注意的是A家C5以下的片子是4输入LUT而X家的是6输入LUT，差别也较大。如果不考虑FF，那么一个X家的slice=4个A家的LE。例如XC6SLX16含有2278个slices=EP4CE10（9000LE）的样子。当然，S-6的FF多一倍，达到了18224个。

在Virtex-5中（我们的设计大部分是Virtex，V5V6V7），一个Slice包含了4个LUT和4个FF。所以单纯从逻辑资源来看，S-6一个Slice比V-5的Slice强。当然V5的GTPGTX等等还有IO数量是S-6赶不上的。当然，A家的Cyclone V系列的片子，内部和前几代完全不同，采用了从高端的Stratix系列下放的技术.

5、分布式RAM和Block ram
以下分析基于xilinx 7系列

CLB是xilinx基本逻辑单元，每个CLB包含两个slices，每个slices由4个（A,B,C,D）6输入LUT和8个寄存器组成。

同一CLB中的两片slices没有直接的线路连接，分属于两个不同的列。每列拥有独立的快速进位链资源。

slice分为两种类型 SLICEL,  SLICEM .  SLICEL可用于产生逻辑，算术，ROM。 SLICEM除以上作用外还可配置成分布式RAM或32位的移位寄存器。每个CLB可包含两个SLICEL或者一个SLICEL与一个SLICEM.

7系列的LUT包含6个输入 A1 -A6 , 两个输出 O5 , O6 .
可配置成6输入查找表，O6此时作为输出。或者两个5输入的查找表，A1-A5作为输入 A6拉高，O5，O6作为输出。

一个LUT包含6个输入，逻辑容量为2^6bit，为实现7输入逻辑需要2^7容量，对于更多输入也一样。每个SLICES有4个LUT，256bit容量能够实现最多8bit输入的逻辑。为了实现此功能，每个SLICES还包括3个MUX(多路选择器)

F7AMUX  用于产生7输入的逻辑功能，用于连接A,B两个LUT

F7BMUX  用于产生7输入的逻辑功能，用于连接C,D两个LUT

F8MUX 用于产生8输入的逻辑功能，用于连接4个LUT

对于大于8输入的逻辑需要使用多个SLICES, 会增加逻辑实现的延时。

一个SLICES中的4个寄存器可以连接LUT或者MUX的输出，或者被直接旁路不连接任何逻辑资源。寄存器的置位/复位端为高电平有效。只有CLK端能被设置为两个极性，其他输入若要改变电平需要插入逻辑资源。例如低电平复位需要额外的逻辑资源将rst端输入取反。但设为上升/下降沿触发寄存器不会带来额外消耗。

分布式RAM

SLICEM可以配置成分布式RAM，一个SLICEM可以配置成以下容量的RAM

多bit的情况需要增加相应倍数的LUT进行并联。

分布式RAM和 BLOCK RAM的选择遵循以下方法：
1. 小于或等于64bit容量的的都用分布式实现
2. 深度在64~128之间的，若无额外的block可用分布式RAM。要求异步读取就使用分布式RAM。数据宽度大于16时用block ram。
3. 分布式RAM有比block ram更好的时序性能。分布式RAM在逻辑资源CLB中。而BLOCK RAM则在专门的存储器列中，会产生较大的布线延迟，布局也受制约。

移位寄存器（SLICEM）
SLICEM中的LUT能在不使用触发器的情况下设置成32bit的移位寄存器，4个LUT可级联成128bit的移位寄存器。并且能够进行SLICEM间的级联形成更大规模的移位寄存器。

MUX

一个LUT可配置成4:1MUX.

两个LUT可配置成最多8:1 MUX

四个LUT可配置成16个MUX

同样可以通过连接多个SLICES达成更大规模设计，但是由于SLICE没有直接连线，需要使用布线资源，会增加较大延迟。

进位链
每个SLICE有4bit的进位链。每bit都由一个进位MUX(MUXCY)和一个异或门组成，可在实现加法/减法器时生成进位逻辑。该MUXCY与XOR也可用于产生一般逻辑。

6、FPGA设计方法概论
FPGA是可编程芯片，因此FPGA的设计方法包括硬件设计和软件设计两部分。硬件包括FPGA芯片电路、存储器、输入输出接口电路以及其他设备，软件即是相应的HDL程序以及最新才流行的嵌入式C程序。硬件设计是基础，但其方法比较固定，本书将在第4节对其进行详细介绍，本节主要介绍软件的设计方法。

目前微电子技术已经发展到SOC阶段，即集成系统（Integrated System）阶段，相对于集成电路（IC）的设计思想有着革命性的变化。SOC是一个复杂的系统，它将一个完整产品的功能集成在一个芯片上，包括核心处理器、存储单元、硬件加速单元以及众多的外部设备接口等，具有设计周期长、实现成本高等特点，因此其设计方法必然是自顶向下的从系统级到功能模块的软、硬件协同设计，达到软、硬件的无缝结合。

这么庞大的工作量显然超出了单个工程师的能力，因此需要按照层次化、结构化的设计方法来实施。首先由总设计师将整个软件开发任务划分为若干个可操作的模块，并对其接口和资源进行评估，编制出相应的行为或结构模型，再将其分配给下一层的设计师。这就允许多个设计者同时设计一个硬件系统中的不同模块，并为自己所设计的模块负责；然后由上层设计师对下层模块进行功能验证。

自顶向下的设计流程从系统级设计开始，划分为若干个二级单元，然后再把各个二级单元划分为下一层次的基本单元，一直下去，直到能够使用基本模块或者IP核直接实现为止，如图1-6所示。流行的FPGA开发工具都提供了层次化管理，可以有效地梳理错综复杂的层次，能够方便地查看某一层次模块的源代码以修改错误。

图1-6 自顶向下的FPGA设计开发流程

在工程实践中，还存在软件编译时长的问题。由于大型设计包含多个复杂的功能模块，其时序收敛与仿真验证复杂度很高，为了满足时序指标的要求，往往需要反复修改源文件，再对所修改的新版本进行重新编译，直到满足要求为止。这里面存在两个问题：首先，软件编译一次需要长达数小时甚至数周的时间，这是开发所不能容忍的；其次，重新编译和布局布线后结果差异很大，会将已满足时序的电路破坏。因此必须提出一种有效提高设计性能，继承已有结果，便于团队化设计的软件工具。FPGA厂商意识到这类需求，由此开发出了相应的逻辑锁定和增量设计的软件工具。例如，Xilinx公司的解决方案就是PlanAhead。

Planahead 允许高层设计者为不同的模块划分相应FPGA芯片区域，并允许底层设计者在在所给定的区域内独立地进行设计、实现和优化，等各个模块都正确后，再进行设计整合。如果在设计整合中出现错误，单独修改即可，不会影响到其它模块。Planahead将结构化设计方法、团队化合作设计方法以及重用继承设计方法三者完美地结合在一起，有效地提高了设计效率，缩短了设计周期。

不过从其描述可以看出，新型的设计方法对系统顶层设计师有很高的要求。在设计初期，他们不仅要评估每个子模块所消耗的资源，还需要给出相应的时序关系；在设计后期，需要根据底层模块的实现情况完成相应的修订。

典型FPGA开发流程
FPGA的设计流程就是利用EDA开发软件和编程工具对FPGA芯片进行开发的过程。FPGA的开发流程一般如图1-7所示，包括电路设计、设计输入、功能仿真、综合优化、综合后仿真、实现、布线后仿真、板级仿真以及芯片编程与调试等主要步骤。

图1-7 FPGA开发的一般流程

1．电路设计
在系统设计之前，首先要进行的是方案论证、系统设计和FPGA芯片选择等准备工作。系统工程师根据任务要求，如系统的指标和复杂度，对工作速度和芯片本身的各种资源、成本等方面进行权衡，选择合理的设计方案和合适的器件类型。一般都采用自顶向下的设计方法，把系统分成若干个基本单元，然后再把每个基本单元划分为下一层次的基本单元，一直这样做下去，直到可以直接使用EDA元件库为止。

2．设计输入
设计输入是将所设计的系统或电路以开发软件要求的某种形式表示出来，并输入给EDA工具的过程。常用的方法有硬件描述语言（HDL）和原理图输入方法等。原理图输入方式是一种最直接的描述方式，在可编程芯片发展的早期应用比较广泛，它将所需的器件从元件库中调出来，画出原理图。这种方法虽然直观并易于仿真，但效率很低，且不易维护，不利于模块构造和重用。更主要的缺点是可移植性差，当芯片升级后，所有的原理图都需要作一定的改动。目前，在实际开发中应用最广的就是HDL语言输入法，利用文本描述设计，可以分为普通HDL和行为HDL。普通HDL有ABEL、CUR等，支持逻辑方程、真值表和状态机等表达方式，主要用于简单的小型设计。而在中大型工程中，主要使用行为HDL，其主流语言是Verilog HDL和VHDL。这两种语言都是美国电气与电子工程师协会（IEEE）的标准，其共同的突出特点有：语言与芯片工艺无关，利于自顶向下设计，便于模块的划分与移植，可移植性好，具有很强的逻辑描述和仿真功能，而且输入效率很高。

3．功能仿真
功能仿真，也称为前仿真，是在编译之前对用户所设计的电路进行逻辑功能验证，此时的仿真没有延迟信息，仅对初步的功能进行检测。仿真前，要先利用波形编辑器和HDL等建立波形文件和测试向量（即将所关心的输入信号组合成序列），仿真结果将会生成报告文件和输出信号波形，从中便可以观察各个节点信号的变化。如果发现错误，则返回设计修改逻辑设计。常用的工具有Model Tech公司的ModelSim、Sysnopsys公司的VCS和cadence公司的NC-Verilog以及NC-VHDL等软件。

4．综合优化
所谓综合就是将较高级抽象层次的描述转化成较低层次的描述。综合优化根据目标与要求优化所生成的逻辑连接，使层次设计平面化，供FPGA布局布线软件进行实现。就目前的层次来看，综合优化（Synthesis）是指将设计输入编译成由与门、或门、非门、RAM、触发器等基本逻辑单元组成的逻辑连接网表，而并非真实的门级电路。真实具体的门级电路需要利用FPGA制造商的布局布线功能，根据综合后生成的标准门级结构网表来产生。为了能转换成标准的门级结构网表，HDL程序的编写必须符合特定综合器所要求的风格。由于门级结构、RTL级的HDL程序的综合是很成熟的技术，所有的综合器都可以支持到这一级别的综合。常用的综合工具有Synplicity公司的Synplify/Synplify Pro软件以及各个FPGA厂家自己推出的综合开发工具。

5．综合后仿真
综合后仿真检查综合结果是否和原设计一致。在仿真时，把综合生成的标准延时文件反标注到综合仿真模型中去，可估计门延时带来的影响。但这一步骤不能估计线延时，因此和布线后的实际情况还有一定的差距，并不十分准确。目前的综合工具较为成熟，对于一般的设计可以省略这一步，但如果在布局布线后发现电路结构和设计意图不符，则需要回溯到综合后仿真来确认问题之所在。在功能仿真中介绍的软件工具一般都支持综合后仿真。

6．实现与布局布线
实现是将综合生成的逻辑网表配置到具体的FPGA芯片上，布局布线是其中最重要的过程。布局将逻辑网表中的硬件原语和底层单元合理地配置到芯片内部的固有硬件结构上，并且往往需要在速度最优和面积最优之间作出选择。布线根据布局的拓扑结构，利用芯片内部的各种连线资源，合理正确地连接各个元件。目前，FPGA的结构非常复杂，特别是在有时序约束条件时，需要利用时序驱动的引擎进行布局布线。布线结束后，软件工具会自动生成报告，提供有关设计中各部分资源的使用情况。由于只有FPGA芯片生产商对芯片结构最为了解，所以布局布线必须选择芯片开发商提供的工具。

7．实现与布局布线
时序仿真，也称为后仿真，是指将布局布线的延时信息反标注到设计网表中来检测有无时序违规（即不满足时序约束条件或器件固有的时序规则，如建立时间、保持时间等）现象。时序仿真包含的延迟信息最全，也最精确，能较好地反映芯片的实际工作情况。由于不同芯片的内部延时不一样，不同的布局布线方案也给延时带来不同的影响。因此在布局布线后，通过对系统和各个模块进行时序仿真，分析其时序关系，估计系统性能，以及检查和消除竞争冒险是非常有必要的。在功能仿真中介绍的软件工具一般都支持综合后仿真。

8．板级仿真与验证
板级仿真主要应用于高速电路设计中，对高速系统的信号完整性、电磁干扰等特征进行分析，一般都以第三方工具进行仿真和验证。

9．芯片编程与调试
设计的最后一步就是芯片编程与调试。芯片编程是指产生使用的数据文件（位数据流文件，Bitstream Generation），然后将编程数据下载到FPGA芯片中。其中，芯片编程需要满足一定的条件，如编程电压、编程时序和编程算法等方面。逻辑分析仪（Logic Analyzer，LA）是FPGA设计的主要调试工具，但需要引出大量的测试管脚，且LA价格昂贵。目前，主流的FPGA芯片生产商都提供了内嵌的在线逻辑分析仪（如Xilinx ISE中的ChipScope、Altera QuartusII中的SignalTapII以及SignalProb）来解决上述矛盾，它们只需要占用芯片少量的逻辑资源，具有很高的实用价值。

1.3.3 基于FPGA的SOC设计方法
基于FPGA的SOC设计理念将FPGA可编程的优点带到了SOC领域，其系统由嵌入式处理器内核、DSP单元、大容量处理器、吉比特收发器、混合逻辑、IP以及原有的设计部分组成。相应的FPGA规模大都在百万门以上，适合于许多领域，如电信、计算机等行业。

系统设计方法是SOC常用的方法学，其优势在于，可进行反复修改并对系统架构实现进行验证，？？？包括SOC集成硬件和软件组件之间的接口。不过，目前仍存在很多问题，最大的问题就是没有通用的系统描述语言和系统级综合工具。随着FPGA平台的融入，将 SOC逐步地推向了实用。SOC平台的核心部分是内嵌的处理内核，其硬件是固定的，软件则是可编程的；外围电路则由FPGA的逻辑资源组成，大都以IP 的形式提供，例如存储器接口、USB接口以及以太网MAC层接口等，用户根据自己需要在内核总线上添加，并能自己订制相应的接口IP和外围设备。

基于FPGA的典型SOC开发流程为：
1．芯片内的考虑
从设计生成开始，设计人员需要从硬件/软件协同验证的思路入手，以找出只能在系统集成阶段才会被发现的软、硬件缺陷。然后选择合适的芯片以及开发工具，在综合过程得到优化，随后进行精确的实现，以满足实际需求。由于设计规模越来越大，工作频率也到了数百兆赫兹，布局布线的延迟将变得非常重要。为了确保满足时序，需要在布局布线后进行静态时序分析，对设计进行验证。

2．板级验证
在芯片设计完毕后，需要再进行板级验证，以便在印刷电路板（PCB）上保证与最初设计功能一致。因此，PCB布局以及信号完整性测试应被纳入设计流程。由于芯片内设计所做的任何改变都将反映在下游的设计流程中，各个过程之间的数据接口和管理也必须是无误的。预计SOC系统以及所必须的额外过程将使数据的大小成指数增长，因此，管理各种数据集本身是急剧挑战性的任务

7、DCM时钟管理单元
看Xilinx的Datasheet会注意到Xilinx的FPGA没有PLL，其实DCM就是时钟管理单元。

1、DCM概述
DCM内部是DLL(Delay Lock Loop结构,对时钟偏移量的调节是通过长的延时线形成的。DCM的参数里有一个PHASESHIFT（相移）,可以从0变到255。所以我们可以假设内部结构里从输入引脚clkin到输出引脚clk_1x之间应该有256根延时线（实际上,由于对不同频率的时钟都可以从0变到255,延时线的真正数目应该比这个大得多）。DCM总会把输入时钟clkin和反馈时钟CLKFB相比较,如果它们的延时差不等于所设置的PHASESHIFT,DCM就会改变在clkin和clk_1x之间的延时线数目,直到相等为止,输出和输入形成闭环，动态调整到设定值再退出。这个从不等到相等所花的时间,就是输出时钟锁定的时间,相等以后,lock_flag标识才会升高。

当DCM发现clkin和clkfb位相差不等于PHASESHIFT的时候,就去调节clk_1x和clkin之间延时,所以如果clk_1x和clkfb不相关的话,那就永远也不能锁定了。

图一、DCM和BUFG配合使用示意图

2、如何使用DCM
DCM一般和BUFG配合使用,要加上BUFG,应该是为了增强时钟的驱动能力。DCM的一般使用方法是,将其输出clk_1x接在BUFG的输入引脚上,BUFG的输出引脚反馈回来接在DCM的反馈时钟脚CLKFB上。另外,在FPGA里,只有BUFG的输出引脚接在时钟网络上,所以一般来说你可以不使用DCM,但你一定会使用BUFG。有些兄弟总喜欢直接将外部输入的时钟驱动内部的寄存器,其实这个时候虽然你没有明显地例化BUFG,但工具会自动给你加上的。

3、使用DCM可以消除时钟skew
使用DCM可以消除时钟skew。这个东西一直是我以前所没有想清楚的,时钟从DCM输出开始走线到寄存器,这段skew的时间总是存在的,为什么用DCM就可以消除呢？直到有一天忽然豁然开朗,才明白其原委。对高手来说,也许是极为easy的事情,但也许有些朋友并不一定了解,所以写出来和大家共享。

为说明方便起见,我们将BUFG的输出引脚叫做clk_o,从clk_o走全局时钟布线到寄存器时叫做clk_o_reg,从clk_o走线到DCM的反馈引脚CLKFB上时叫clkfb,如图所示。实际上clk_o, clk_o_reg, clkfb全部是用导线连在一起的。

所谓时钟skew,指的就是clk_o到clk_o_reg之间的延时。如果打开FPGA_Editor看底层的结构,就可以发现虽然DCM和BUFG离得很近,但是从clk_o到clkfb却绕了很长一段才走回来,从而导致从clk_o到clk_o_reg和clkfb的延时大致相等。

总之就是clk_o_reg和clkfb的相位应该相等。所以当DCM调节clkin和clkfb的相位相等时,实际上就调节了clkin和clk_o_reg相等。而至于clk_1x和clk_o的相位必然是超前于clkin, clkfb, clk_o_reg的,而clk_1x和clk_o之间的延时就很明显,就是经过那个BUFG的延迟时间。

4、对时钟skew的进一步讨论
最后,说一说时钟skew的概念。时钟skew实际上指的是时钟驱动不同的寄存器时,由于寄存器之间可能会隔得比较远,所以时钟到达不同的寄存器的时间可能会不一样,这个时间差称为时钟skew。这种时钟skew可以通过时钟树来解决,也就是使时钟布线形成一种树状结构,使得时钟到每一个寄存器的距离是一样的。很多FPGA芯片里就布了这样的时钟树结构。也就是说,在这种芯片里,时钟skew基本上是不存在的。

说到这里,似乎有了一个矛盾,既然时钟skew的问题用时钟树就解决了,那么为什么还需要DCM+BUFG来解决这个问题？另外,既然时钟skew指的是时钟驱动不同寄存器之间的延时,那么上面所说的clk_o到clk_o_reg岂非不能称为时钟skew？

先说后一个问题。在一块FPGA内部,时钟skew问题确实已经被FPGA的时钟方案树解决,在这个前提下clk_o到clk_o_reg充其量只能叫做时钟延时,而不能称之为时钟skew。可惜的是FPGA的设计不可能永远只在内部做事情,它必然和外部交换数据。例如从外部传过来一个32位的数据以及随路时钟,数据和随路时钟之间满足建立保持时间关系(Setup Hold time),你如何将这32位的数据接收进来？如果你不使用DCM,直接将clkin接在BUFG的输入引脚上,那么从你的clk_o_reg就必然和clkin之间有个延时,那么你的clk_o_reg还能保持和进来的数据之间的建立保持关系吗？显然不能。相反,如果你采用了DCM,接上反馈时钟,那么clk_o_reg和clkin同相,就可以利用它去锁存进来的数据。可见,DCM+BUFG的方案就是为了解决这个问题。而这个时候clk_o到clk_o_reg的延时,我们可以看到做内部寄存器和其他芯片传过来的数据之间的时钟skew。

由此,我们可以得出一个推论,从晶振出来的时钟作为FPGA的系统时钟时,我们可以不经过DCM,而直接接到BUFG上就可以,因为我们并不在意从clkin到clk_o_reg的这段延时。

fanichicl · 发表于 2018-12-10 11:19

真的谢了，提供这么好资料啊！

帐号		自动登录	找回密码
密码			注册

FPGA重点知识13条，助你构建完整“逻辑观”之一

EDA365欢迎您登录！

推荐内容 /1