您好、欢迎来到现金彩票网!
当前位置:2019跑狗图高清彩图 > 先行算法 >

电力电子与电力传动专业论文)全定制高性能的算术逻辑运算单元的

发布时间:2019-07-28 15:44 来源:未知 编辑:admin

  摘要从理论和实践上对一个40位的高性能算术逻辑部件( ALU) 进行了全定制设计。首先研究了高性能ALU的设计方法,对多种加法器进行了性能比较,在超前加法器中提出了先行进位理论与并行进位理论的算法,此方向重在理论研究;接着在上述理论支持下,完整的设计了一款40位X—DSP处理器的ALU,重在实践应用。整个设计思路从部件算法、逻辑结构、功能仿真验证、电路版图设计等多个层次进行了优化设计。论文的研究成果包括以下几点:1.理论上通过性能、速度、面积等的对比设计了一款高性能的40位ALU( 其中加法器以Kogge—stone树为结构构造) 。2.实践应用中用“ 内超外串法(...

  摘要从理论和实践上对一个40位的高性能算术逻辑部件( ALU) 进行了全定制设计。首先研究了高性能ALU的设计方法,对多种加法器进行了性能比较,在超前加法器中提出了先行进位理论与并行进位理论的算法,此方向重在理论研究;接着在上述理论支持下,完整的设计了一款40位XDSP处理器的ALU,重在实践应用。整个设计思路从部件算法、逻辑结构、功能仿真验证、电路版图设计等多个层次进行了优化设计。论文的研究成果包括以下几点:1.理论上通过性能、速度、面积等的对比设计了一款高性能的40位ALU( 其中加法器以Koggestone树为结构构造) 。2.实践应用中用“ 内超外串法( 组内超前进位,组间串行进位)设计了40位XDSP处理器的ALU。同时在为了提高ALU的运算速度,在此加法链之外,另行设计了一条低16位超前进位加法链,采用了跳跃进位的设计思想。3.为了提高ALU的运算速度和资源利用,设计了一个C16位,用以在一个时钟周期内完成两个16位的加法运算或完成一个40位的加法运算。4.综合设计面积对运算性能的重要性,为了减少设计面积,将逻辑运算与算术运算综合在一个逻辑单元中完成,使用一个C位设计来完成逻辑运算与算术运算的转换。5.功能仿真阶段,为了设计过程的准确性,提出了局部功能仿真和整体功能仿线.版图设计阶段,简要讲述了电路版图规划和全局版图设计。关键词:ALU,加法器,算术设计单元,逻辑设计单元,全定制优化设计 ABSTRACTIn thi s paper,the theoryandpracti ceonahi gh- performance40_-bi tari thmeti c l ogi c uni t( ALU) to carryout a ful l customdesi gn.Arti cl efi rststudi ed howtodesi gnahi ghperformance ALU,andbegi nedi n avari etyofperf ormance compari soni nadder,andcarri ed out fi rst bi nary theoryandl ocati ontheoryi nal gori thmsroad research at carryl ookaheadadder( CLA) .These researches focus on theoreti cal research i n thi s di recti on.Then i n theabovementi oned theoreti calsupport,we compl eted desi gnedALUof a 40X.DSPprocessor.Theseresearchesfocuson practi calappl i cati on.Weopti mi zethedesi gnfromthedesi gni deas about thealgorithm,the l ogi cofstructure,functi on si mul ati on,ci rcui t l ayout pl anni ng.Theresul ts of researchpapersi ncl ude thefol l owi ng:Fi rst,i n theory, through the compareofperformance,area,speed,contrast,etc,we desi gnedahi ghperformance40一bi t ALU( adderi n the treestructure of theKogge- stone tree).Second,i nthepracti ceofappl i cati on,usethe method of“ wi thi n theCLA externaltheri ppl e carry adder( RCA) ” to desi gnthe ALU of the 40X.DSPprocessor.Atthe same ti me,i norder toi mprove computati onal speedof the ALU,we further desi gna l ow一1 6 CLAchai n,usi ngthecarry ski padder( CSA) i ntothedesi gni dea i n thi s adder chai n.Thi rd,i n order toi mprove computati onal speedand uti l i ze resource,wedesi gneda C16一bi t,ata cl ockcycl etocompl etethe two16-bi t addi ti onoperati onsorcompl etea40一bi t addi ti onoperati ons.Fourth,consi deri ngthei mportanceof the area,wewi l li ntegratethel ogi c operati onsand arithmeticoperati onsi n al ogi caluni t i n order to reducethedesi gnarea.We wi l luse the C 16-bi t tocompl etethe conversi on at theari thmeti coperati onsand thel ogi c operati ons.Fi fth,at thestageof the functi onal si mul ati on,wehaveproposedtheparti al functi onal si mul ati on and the overal l functi onal si mul ati on i n order totheaccuracyof thedesi gn process.Si xth,i nthel ayout desi gn stage,we bri efl ydescri bed the ci rcui t l ayoutpl anni ngand overal ll ayout.The ALUdesi gnhas beensuccessful l y appl i edto thedesi gnof theDSP,and i t has beenputi ntoproducti on.11 KEY WORDS:ALU,adder desi gnuni t,ari thmeti c desi gn uni t,l ogi cdesi gnuni t,Ful l CustomDesi gnII! 原创性声明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均己在论文中作了明确的说明。作者签名: !翌聋日期:4年』月卑日学位论文版权使用授权书本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。作一:烽新签名烨魄-z,:3.年办乡日 硕十学位论文第一章绪论1.1课题研究背景第一章绪论在当今的信息社会中,计算机系统已成为是整个信息处理的核心,作为知识经济的“ 脑细胞” 的处理器俨然成为这个社会的核心中的核心,无所不在的分布在当代通信设备、网络设备等一切信息节点上【l 】。在这种趋势下,各个科技大国都把研制高性能处理器作为其在综合科技实力上竞争的一个热点,我国非常重视在这个领域的投入,但就总体而言,这个产业仍处起步阶段,与国际先进水平相比差距甚远。产量小、产品技术低,设计能力、制造技术、产品和市场开发都缺乏自主能力。微处理器虽然已有“ 方舟和“ 龙芯等几种型号,但其性能和相关应用还无法与国外芯片竞争,总之国内所需微处理器几乎全部从国外进口。技术上受制于人不仅仅是经济受损,而且对国家安全构成严重的隐患,因为大多数处理器芯片都有用户所不知道的“ 后门,生产商对外公布的指令集只是芯片所支持的指令集的一个子集,掌握这些“ 后门” 的人可以不费吹灰之力便可通过网络获得所需信息。用这样的芯片构筑的信息系统显然毫无安全可言,因此研制开发自己的微处理器,已经迫在眉睫。在这样的大背景下,我们开始了一款通用高性能微处理器芯片的研发。此款微处理器芯片是一款高性能的数字信号处理器,它的研制,无论是对高性能数字信号处理器的体系结构,还是对高性能CPU的设计实现方法,都是一次有意义的探索。1.2数字信号处理器1.2.1数字信号处理器的概述数字信号处理( Di gi tal Si gnal Processi ng,简称DSP) 是一种具有特殊结构的微处理器。DSP芯片内部采用指令和数据分开的哈佛结构,具有专门的硬件加法器和乘法器,广泛采用流水器操作,提供特殊的DSP指令,可以用来快速地实现各种数字信号处理算法【2-31。数字信号处理是利用计算机或专用处理设备,以数字的形式对信号进行分析、采集、合成、变换、滤波、估算、压缩、识别等加工处理,以便取得有用的信息并进行有效的传输和应用,与模拟信号处理相比,数字信号处理具有精确、灵活、抗干扰能力强、可靠性高、体积小、易于大规模集成等优点。1.2.2数字信号处理器的特点从20世纪80年代初DSP芯片诞生以来,DSP芯片已经在通信与信息系统、信号与信息处理、自动控制、雷达、航空航天、医疗、家用电器等许多领域得到了广泛应用。 硕士学位论文第一章绪论DSP能得到如此广泛的应用,主要在于它具有以下方面的特点【4。5J :1.采用改进的哈佛结构( Havard Structure)其主要特点是程序和数据具有独立的存储空间,有着各自独立的程序总线和数据总线,从而可以同时对数据和程序进行寻址,因此大大地提高了数据处理能力,非常适合于实时的数字信号处理。改进的哈佛结构则是在数据总线和程序总线之间进行局部的交叉连接。这一改进允许数据存放在程序存储器中,并被算术运算指令直接使用,增强了芯片的灵活性。2.采用流水线操作的指令系统在流水线操作中,一个任务被分解为若干个子任务,各个任务可以在执行时相互重叠。在流水线操作中,DSP处理器可以同时并行处理2~4条指令,每条指令处于其执行过程中的不同状态。DSP指令系统的流水线操作与哈佛结构相配合,增加了处理器的处理能力,把指令周期减小最小值,同时也增加了信号处理器的吞吐量。3.采用专用的硬件运算部件在DSP中,有专用的硬件运算电路,如算术逻辑单元( ALU) 、桶型移位器( SHITER) 、比较选择器( CSSU) 、乘法器( MAC) 等,专用指令使用专用硬件电路,从而使得并行运行体系成为可能,也为流水线操作提供便利条件,大大提高运行速度。4.采用特殊的DSP指令和快速的指令周期DSP芯片主频的不断提高,使得指令周期不断下降,伴随着微电子技术的不断发展,工作频率还将继续提高,而指令周期也将越来越快。5.采用并行运行体系结构和良好的多机并行运行特性在DSP芯片内部,随着总线技术的不断完善,在内部模块间,数据交流越来越多的是使用并行总线技术,从而为芯片并行运行体系结构打下基础。而在DSP芯片应用的场所中,由于单机处理能力的有限,多个DSP芯片的并行处理也已经成为近年来的研究热点。6.采用高度集成方法从而使其低电压运行CMOS技术、先进工艺、集成电路的优化设计等等原因,使得系统的工作电压从标准的5V降到3.3V,2.5V,1.8V,甚至0.9V。1.2.3数字信号处理器的实现数字信号处理的实现是用硬件、软件或者软硬结合的方法来实现各种算法。数字信号的实现一般有以下几种方法【卯】:( 1) 在通用计算机( PC) 上用软件实现,但速度很慢,不适合于适时数字信号处理,只能用于算法模拟。( 2) 在通用计算机系统中加入专用的加速处理机实现,以增强运算能力和提高运2 硕士学位论文第一章绪论算速度。( 3) 用单片机实现,用于不太复杂的数字信号处理。( 4) 用通用的可编程的DSP芯片实现,可完成复杂的数字信号处理算法,在适时DSP中处于主导地位。( 5) 用专用的DSP芯片实现,可以用在处理速度要求极快的特殊场合,相应的处理算法由内部硬件电路实现。用户无需编程,但专用性强,应用受到限制。( 6) 用基于通用DSP核的ASIC芯片实现。1.2.4数字信号处理器的发展自1980年以来,DSP芯片以取得了突飞猛进的发展,主要表现如下【8叫:1.制造工艺早期DSP采用4, um的NMOS工艺。现在的DSP芯片普遍采用O.25, um或0.18/.tm的CMOS工艺。芯片的引脚从原来的40个增加到200个以上,需要设计的外围电路越来越少,成本、体积和功耗不断下降。2.存储器容量早期的DSP芯片,其片内程序存储器和数据存储器只有几百个单元。其片内程序和数据存储器可以达到几十千字,而片外程序和数据存储器可达到16Mx48bi t和4Gx40bi t以上。3.内部结构目前,DSP内部均采用多总线,多处理单元和多级流水结构,加上完善的接口功能,使DSP的系统功能,数据处理能力和与外部设备的通信都有了很大提高。4.运算速度近20年大发展,使DSP的指令周期从400ns缩短到10ns以下。5.高度集成化集滤波、A/D、D/A、ROM、RAM和DSP内核于一体的模拟混合式DSP芯片已经有了教大的发展和应用。6.运算的精度和动态范围由于输入信号动念范围和跌代算法可能带来的误差累积,因此对DSP芯片的精度提出了要求。DSP芯片的字长从8位已经增加到32位,累加器的长度也增加到了40位,从而提高了运算的精度。DSP芯片发展的代表性产品当数美国德州仪器公司( TexasInstruments,简称TI)的一系列产品。1.2.5数字信号处理器的展望在新的未来形势下,DSP面临的要求是处理速度更高、性能更加全面,功耗更低、存储器容量更多。所以DSP芯片会有以下发展趋势【101。1.DSP芯片的内核将进一步改善3 硕士学位论文第一章绪论多通道结构和单指令多重数据( SIMD) 、特大指令字组将在新的高性能处理器中占主导地位。2.DSP与微处理器的融合低成本的微处理器( MPU) 是一种执行定向控制任务的通用处理器,它能很好的执行只能控制任务,但是对数字信号的处理能力很差。而DSP的功能正好与之相反。在许多应用领域中需要同时具有智能控制和数字信号处理两种功能,。因此把DSP和微处理器结合起来,用单一芯片的处理器来实现这两种功能,将加速个人通信、智能电话、无线网络产品的开发,同时简化设计,减少PCB体积,降低功耗和整个系统的成本。3.DSP和高档CPU的融合4.DSP的并行处理结构为了提高DSP芯片的速度,各个DSP厂家纷纷在DSP芯片中引入并行机制,主要来替代传统的总线互连。这样可以在同一时刻将不同的DSP与不同的任一分为片内并行和片间并行。利用交叉开关结构存储器连通,大大提高数据传输的速率,使得多处理器并行处理数据传输的瓶颈问题得以缓解。5.功耗越来越低随着超大规模集成电路技术和先进电源管理设计技术的发展,DSP芯片的内核电压将会越来越低,除了内核单元外,周边装置、存储器的功耗也在不断的下降,这样使得整个DSP芯片的功耗随之下降。预计到2010年DSP的功耗可以下降到0.001M删IPS左右。1.3数字信号处理器中运算部件特点及发展情况微处理器是计算机的核心,是中央处理器( CentralProcessi ng Uni t,CPU) ,负责对信息和数据进行运算和处理。本课题所研究的运算单元则是CPU的核心执行部件,承担计算机中大量的计算任务。算术逻辑单元是数字信号处理器的核心,ALU把加法、减法等算术运算和逻辑运算( AND、OR等) 结合到一起,算术逻辑单元的速度常常决定了整个系统的性能,因此需要仔细设计优化。在数字信号处理的各种算法(如快速傅立叶变换( FFT) 、FIR滤波、卷积等) 中,大量使用了加法操作。而衡量DSP芯片性能的一个重要指标就是单位时间内能够完成的加法操作的数型11J21。国际上对高性能算术逻辑部件得研究已经有多年的历史,并且一些研究已经达到了较高的水平。众多先进技术被算术逻辑部件的设计所采用。DSP芯片一般都配置多个运算部件:现在流行的DSP一般都设置了双MAC,多个ALU运算部件,多个乘法部件。运算部件决定芯片的运行频率,控制着关键路径,因此运算部件的先进算法都被运用到DSP设计中。对算术逻辑部件的高性能追求使得像加法器、移位器等关键部件都采用全定制设计。4 硕士学位论文第一章绪论1.4国内外运算部件的相关研究国际上对高性能算术逻辑部件的研究已经有多年的历史,并且一些研究已经达到较高的水平。众多先进的技术被算术逻辑部件的设计所采用,如绝缘体硅( soI)技术、双电源电压技术等。采用这些技术,可以达到更高的性能和更低的功耗。一些具有代表性的研究主要有:1.DEC1992年,美国DEC公司推出的Al pha21064处理器中,率先采用单周期延迟的算术逻辑部件。该部件为64位结构,采用O.75/am的CMOS工艺实现,用于时钟频率为200MHz的处理器。该设计在当时堪称一流水平【131;2.CUHK香港中文大学( CuHK) 电子工程系曾研究出16位流水线结构的算术逻辑部件,该部件采用了一种新颖的异步流水线am的CMOS工艺制造,可应用在370MHz的处理器中;3.Hi tachi1993年,日本日立公司( Central ResearchLaboratory,Hi tachi ,Ltd.) 研制出采用双传输管逻辑( DPL) 实现的32位算术逻辑部件,使用0.259i n工艺线年,Renesas公司( Renesas Technol ogy Corp) 和IBM公司( IBMT.J .WatsonResearch Center) 研究出一种双阱双电源电压的64位算术逻辑部件,由于采用双阱和双电源电压的技术,延迟和功耗大大降低。该部件可达到1.16GHz的频率;5.Intel .12001年Intel 公司研制的算术逻辑部件,在O.1鼬mCMOS工艺下延迟仅为482ps。由于采用了先进的结构和绝缘体硅( SOI) 技术,使得性能有很大提升,同时使功耗降低;6.Intel .2Intel 公司最近推出的新一代Penti um和Xeon处理器的算术逻辑部件,采用90nm工艺,在进行64位运算时频率可以达到4GHz。同时,它还可以进行32位运算,频率高达7GHz。由于采用了最先进的90nm工艺,双电源电压技术,独特的逻辑和电路结构等,该部件达到了非常高的性能l ㈨。图1.1表示了算术逻辑部件在性能方面的发展。图中纵坐标为部件的运行频率,单位为G舷。然而,国内对于高性能算术逻辑部件的研究还不是很多,研究水平也不高。采用全定制对算术逻辑部件进行专门设计的单位较少,大多数设计都是采用半定制的方法,因此性能较低,频率一般只能达到100M眈~200M阮。5 硕士学位论文第一章绪论DEccUHX Hi tachil BMIntel - 1Intel - 2图1-1算术逻辑部件性能发展这种情况与国内高性能微处理器的研究水平相对落后有关。例如,2003年中科院研制的64位高性能微处理器“ 龙芯( Godson) 问世,2005年又推出其第二代产品“ 龙芯2号115l ,,。虽然该款处理器主频号称可达到400朋m~500M眈,但是龙芯系列处理器的算术逻辑部件仍采用标准单元的方法设计,性能相对来说仍然较差。而国外Intel 、AMD、TI等公司均采用专门设计的全定制电路实现,这种方法虽然开发周期较长,但设计出的电路速度快、功耗低、面积小,具有很多优势。因此,我们在全定制电路的设计积累上,显得非常迫切和必要。1.5课题研究来源、目的与意义16位DSP芯片是“ 银河飞腾系列芯片中的一款高性能芯片。目前,“ 银河飞腾高性能DSP系列芯片的研制工作已经取得很好的成果。本课题就是在己有的科研成果上,研究如何提高数据通路的运算部件运算速度,主要是针对ALU单元采用全定制设计,达到对数据通路的优化目的。算术逻辑运算单元可以采用全定制、手工设计,可以采用半定制,也可以采用自动综合设计以及可编程门级结构。采用后两种设计方法,虽然设计时间可以大大缩短,设计难度大大降低,但是这是以降低版图密度和增加面积成本为代价的。而随着模块电路的复杂度急剧增加,运算模块的设计方案要对设计性能( 延时、面积)以及设计时间等因素进行综合考虑。因此在设计项目中,为了达到高性能的设计要求,采用了全定制的设计方法。1.6本课题的主要内容深入研究X.DSP数字信号处理器的体系结构和数据通路组成,围绕着ALU单元关键路径的优化提出全定制和半定制相结合的设计方法。对其中的加法器采用并6拓口,D.^妒5口5口t土一{z2LL仉现玎 硕士学位论文第一章绪论行算法和超前进位、跳跃进位算法相结合的全定制逻辑设计。1.算法设计算法设计是整个设计的最高层次,采用先进的算法是提高运算部件性能的根本方法。在分析几种经典加法器算法的基础上,提出了以超前进位为基础,以超前进位中的并行进位理论为依据的改进型加法器算法设计思路。2.逻辑设计同一种算法可以对应不同的逻辑结构,因此逻辑结构的设计非常重要。逻辑结构的选择和逻辑级数优化,特别是对关键路径的优化,可以有效地提高部件性能。本文对算术逻辑部件的逻辑结构进行了分析和设计,并对关键路径进行了优化,使得整体性能和功耗都有所改善。3.功能仿真验证功能仿真验证是在电路设计完成后,对设计所要实现的功能指令进行功能仿真,为了有较高的测试覆盖率,对操作码和操作数都要求其完整。4.电路版图规划电路版图规划是将逻辑结构映射到整个电路版图设计的过程。电路设计时要考虑电路结构,对于一个40位加法器,其设计时电路版图布局规划直接关系到加法器性能。本文针对所设计部件的具体结构,使用理论推导和实际模拟相结合的的方法进行分析,从而确定电路结构,使关键路径延时最小,整个电路达到最佳的性能。本文的组织结构:第一章绪论。主要介绍了课题研究背景,数字信号处理器和数字信号处理器中运算部件特点及发展情况并且对课题的来源、目的及意义作了简要的叙述,阐述了本文的主要研究内容和思想。第二章研究分析ALu中的各种加法器的实现理论及算法,各种加法器在实现过程中面积复杂度和时间复杂度之间的关系。主要研究了几种加法器之间的性能优越性的对比,并对超前进位中了先行进位算法和并行进位算法作出了优化,针对本文ALU的特点提出了高性能设计的选择方法。第三章主要介绍ALU的设计理论和方法、总体ALU设计思路图、逻辑运算及算术运算理论与具体实现电路、双16位模式的实现以及双进位链的设计理论与具体实现。尤其详细的介绍了PG电路具体设计,C16位电路具体设计,C控制位电路具体设计。第四章主要对设计结果进行了仿真验证,验证了ALU的逻辑运算与算术运算结果的正确性。在验证思想上提出了局部功能仿真验证和整体功能仿真验证,详细讲叙了设计验证原代码的验证思想和验证过程。第五章主要对设计结果进行了电路的具体版图规划,提出了规划的设计图。并且对设计过程中自己遇到的问题,和解决的过程,以及设计完毕后自己的一些经7 硕士学位论文第一章绪论验教训进行了设计体会的概括。第六章对全文进行总结。最后对所有给予我无私帮助的所有老师、同学和朋友表示感谢,并且给出本文的参考文献。8 硕十学f{7:论文第二章高性能ALU的技术研究第二章高性能ALU的技术研究2.1研究分析ALU中的各种加法器的实现理论及算法加法器是DSP中最基本也是最重要的运算部件,不但直接处理所有的加法和减法指令,同时也是处理比较指令和进行乘法运算的基础【蚓;从算术运算的角度来看,所有的减法和除法运算最终也都能归结为加法运算。此次设计的DSP使用了一个40的专用加法器,2个40位的累加器和一个17x17的乘法器来进行乘累加运算以及算术/逻辑运算。乘法器和ALU并行工作可在一个单指令周期内完成一次乘累加运算,40位的累加器使ALU能够支持双16位算术运算指令,能够在一个机器周期内完成两个16位数的an/减运算,并且能够快速高效地完成如卷积、相关、滤波和Vi terbi等运算。因此,在此次X.DSP微处理器的设计过程中,高性能的加法器的设计将使得该款DSP处理器的速度和性能得到很大提高。在讨论加法器的几种实现方式时,首先给出几个公式St=口,o bt oe+l(21)e+l =q岛+e( q+包) =g,+P,G(2-2)其中g,=口,岛(23)只=at+包(24)可以从公式看出,随着位数的增加,进位链不断加长。因此,加法器设计的关键就是要解决进位的问题,如何使进位链最短、使加法运算时间最短是加法器设计追求的目标。目自i 『解决进位问题的主要方法是利用各位之间的状态( 进位传递函数P、进位产生函数g等) 来预先产生高位的进位信号,从而减少进位从低位向高位传递的时问。用这种方法实现加法器有多种形式,有串行进位加法器( Ri ppl e CarryAdder) 、跳跃进位加法器( Carry Ski p Adder) 、超前进位加法器( Carry LookaheadAdder) 、选择进位加法器( Carry Sel ectAdder) 等。它们的区别主要是在进位链,对进位链的处理方式不同,使得进位传递的时间不同、结构不同,也就导致了速度功耗和面积的不同,综合考虑各种因素,对于不同用途可以有不同的选择。但是不论进位方式和进位链如何,加法器中基本的进位产生信号、进位传递信号和结构信号的产生逻辑基本都是一致的。2.1.1串行进位加法器一个N位的串行进位加法器是通过把N个一位的全加器( FA) 电路串联起来构成,这一结构称为逐位进位加法器或串行进位加法器( ri ppl ecarry adder) ,因为进位位从一级“ 波动” 到另一级。在串行进位加法器中,最坏情形下的延时发生在当最低有效位上产生的进位一直全程传播到最高有效位时【l 。这一进位最终在最后一级上被吸收以产生和,因此9 硕士学位论文第二章高性能ALU的技术研究延时正比于输入字的位数N并近似乞撕=(N一1)乙删tsum式中f删和分别等于q至巳及S的传播延时。串行进位加法器的原理如图2.1所示。AO B0AlBlA2B2A3B3图2-1串行进位加法器(25)2.1,2旁路进位加法器串行进位加法器只适用于实现字长较小的加法,大多数的台式机采用32位字长,而服务器采用64位字长,而诸如大型机、超级计算机或多媒体处理器等速度很快的计算机要求字长128位。加法器的速度位数的线性关系使的采用逐位进位加法器很不现实。在这种情况下,考虑接下来介绍的旁路进位加法器。旁路进位加法器是串行进位加法器的改进结构。考虑4位加法器模块,假设4和E( K=0、1、2、3) 的值使所有的进位传播信号最( K=O、l 、2、3) 为高电平在这一状况下,一个进位输入e。=1传播通过整个加法器链并使进位输出CD.,=1。即:如果( PoPJ P:P3=1) ,则co,=G。,否则发生进位消除或进位产生118】。我们来计算一个N位加法器的延时。首先,假设整个加法器被划分成( N/M)个等长的旁路级,每一级含有M位,这个加法器的总传播时间的近似表达式fp-=tsetup+Mtcarry+(等一1)tbypassl-(Mm⋯钞 。。(2-6)旁路进位加法器的原理如图2-2所示。10 硕士学位论文第二章高性能ALU的技术研究PO GoP2G2P3G3图2-2旁路进位加法器为实现旁路进位,每组需要增加一个多路选择器和一个与门,这种结构可以提高加法器的运算速度。2.1.3跳跃进位加法器在跳跃进位加法器中( CSK) 中,进位在传递的同时也分组传递f191。假设每K位为一组,则每组的进位跳跃控制信号B+。的计算公式如下只 『+七2见只+l他,(2.7)其中p,=q+岛,歹=f,k,f+k。如果任何一组产生了一个进位信号,那么这个进位信号不仅传给下一组,而且在进位控制信号A“ 七为真的条件下该进位信号可以立即传给后续的组。跳跃进位加法器的时间复杂度是D聆,而面积复杂度是O( n) ,有两种类型的进位跳跃加法器,一种是由组内位数相同的行波型进位加法器构成,一种是由组内位数不同的波型进位加法器构成。图23给出了4位行波型进位加法器为一组的16位跳跃进位加法器。图2-3跳跃进位加法器 硕士学位论文第二章高性能ALU的技术研究2.1.4线性选择进位加法器在线性选择进位加法器( CSL Carry Sel ect Carry)t20】中,两个加法并行执行,一个假设进位为1,另一个进位假设为0。当最终得到进位时选择正确结果。进位选择加法器的时间复杂度是D刀,面积复杂度是o(n),图2-4给出了一个组内使用位数不同的行行波型进位加法器结构,合理的分组可以降低整个选择进位加法器的运算时间。一个完整的进位选择加法器就可以通过如进位旁路那样的方法通过链接许多相等长度的加法器级来构成,通过观察下图的电路结构,就可以推导出这一模块最坏情形下传播延时。乞蒯=f。。tup+Mt,,),+({)f用孵+f,Ⅳ小(28)线性选择进位加法器原理图如2-4所示。位0--3位W位弘11位12--15SS们图2-4线性选择进位加法器Sl 152.1.5超前进位加法器影响加法器速度的关键因素是进位信号产生和传递的时间,所以要想提高加法器的速度,就必须尽可能的缩短进位时间,即改进进位方式。超盼进位加法器121】是一种最长研究的加法器形式,它也是利用并行原理来提高电路的速度。其特点是利用C:f、口,、包之间的关系,在求和前计算进位位e,使各级进位信号同时产生,大大减少了进位产生的时间。式( 29) 列举了0到4位超前进位加法器进行进位的算法表示。12 硕士学位论文第二章高性能ALU的技术研究ICo=Co+Voc-l =瓯o+RoC.1jCI=Gl +置Co=Gl +e, Co+鼻RC-l =GI:o+毋:oeIIc2=G2+昱Cl =G2+80, +ge, Go+fi e, eoC l =G2:o+罡:oC-l(2-9)lG=G3+Ec2=G3+只G2+B£GI+gSe, Go+ge2e, eoC_I=G3:o+E:ocl从式( 2.9) 可知:所有各位的进位都不依赖低位的进位,每一位的进位可同时产生。但随着加法器位数的增加,C。的表达式会越来越长,超前进位链导致较大的电路面积,电路结构会越来越复杂。一个32位超前进位加法器的面积是同样位数行波进位加法器面积的5倍。而且将受到元器件扇入系数的限制,所以完全采用并行进位是不可能的,实际上通常采用分组并行进位来实现。即把n位字长分为许多小组( 每组通常4位) ,在组内实现先行进位,在组间即可采用串行进位,也可采用先行进位。一般地,把组内并行,组问串行的方式称为单级超前进位加法器;把组内并行,组问并行的方式成为多级超前进位加法器。超前进位加法器原理图如图25所示。4B忍B4,上b凡毒,4。且,B%&图2- 5超前进位加法器进一步减少加法器运算时fBJ 的方法是加速所有进位信号的产生,超前进位算法就是针对这一点的,它有着O( 109” ) 的时间复杂度。是最快的加法器算法,但它要付出大量的硬件开销,用于产生进位信号的电路,面积的复杂度是O( nl og” ) 超前进位算法适合于位数大于16位的加法器。2.2研究分析ALU中的各种加法器的性能对比前一节对加法器的几种实现形式及结构进行了详细的讨论,通过公式和图示以及查阅相关的资料可以看出122.231,行波进位加法器的结构最简单面积最小但是延迟很大速度太慢不适合DSP的高速运算要求;跳跃进位加法器的旁路逻辑可以使加法器的速度得到极大提高,硬件花费也小,但是性能不是很完善;线性选择进位加法器的延时相对较小,但是加法器的结构复杂而且不能复用,因此耗费的面积也比较大。13 硕士学位论文第二章高性能ALU的技术研究超前进位加法器,它的性能比较高,可以达到极快的速度,比较符合高性能DSP高速运算要求,其次它的模块结构可以复用而且结构规则利于物理实现,但是相对面积较大,必须对其结构和逻辑进行适当的优化。虽然各种实现方式都有各自的优缺点,但是究竟哪种实现方式更适合于我们的设计要求,哪种方式的加法器可以在速度、面积、功耗、性能上满足要求昵?还需要进一步的比较。为了设计出合适的加法器,接下来要讨论这几种加法器实现方式的性能比较分析。具体分析的方法有三种:一是通过门级模拟器来估算加法器的性能;二是采用标准单元库对各种加法器进行逻辑综合和布局布线来设计电路,然后从版图中反提取电路参数,针对其参数进行电路的模拟,从中得出各种加法器的比较结果;三是通过物理实现在芯片上实现各种加法器,然后通过实际测量进行比较。这里在分析时采用,仿真采用的是CADENCE公司的NCVeri l og,逻辑综合采用的是SYNOPSYS公司的Desi gnAnal yzer,布局布线采用的是CADENCE公司的SE。逻辑综合和布局布线urn UMC标准单元库。如下表2-1所示,比较了各种加法器在器件中实现所占管脚和逻辑利用率。其中超前进位加法器所占管脚数适中,逻辑利用率最高,总体要优于其它几种加法器。表2-1几种加法器逻辑利用比较如表22所示【241,实现了各种16位加法器性能结果分析比较。表2-2 16位加法器各种实现方法的结果分析表通过对这些并行加法器的比较,可以发现行波进位加法器的速度太慢,但面积很小。选择进位加法器使用的逻辑门数、面积较大,而速度的改善不足以补偿付出的代价。延迟功耗积较小且面积相对合理的是超前进位加法器,它具有最好的性价比。在物理实现时,超前进位加法器的规则性较好,利于版图实现。14 硕:卜学位论文第二章高性能ALU的技术研究2.3 ALU中超前加法器的高性能设计根据前面对超前进位加法器的研究讨论,对于一个N位的加法器,要对其结构进行优化。在这里系统介绍下超Ij i 『进位加法器中所用到的先行进位理论和并行进位理论。2.3.1先行进位理论对于Ⅳ位加法运算,定义A=AN一。A一:⋯ 4表示加法器的被加数,B=氐一,氐一:⋯岛表示加数,S=Su一。晶一:⋯ 氐表示么与曰相加的和,Cj ( vi ,0fN1) 表示每位的进位。为了讨论的方便,假设该加法运算无进位输入C。。对于相同结构的有进位输入的加法器,讨论的结果也同样适用f251。根据上述定义,每位的和S与进位e的表达式e=Ai 忍+( 4 o骂) Cl ,( Vi ,1fN一1)(210)S=4o忍oCf l ,( vi ,l f N一1)(2一11)当f=0时,和鼠与进位Cn的表达式Co=幺 绞(212)So=AooBo(213)由式( 210) 和式( 2一11) 可知,S和Cj 的计算都依赖于前一级的进位G-l ,因此提高加法器运算速度的关键在于产生进位的速度。考虑式( 2.10) 和式( 2一11) 的特点,定义q为进位产生信号,尸为进位传播信号,表达式如下G,=4 E,( Vf,0fN一1)(214)£=4o尽,( Vf ,0f N一1) ( 2- 15)将式(214)、(215)4-℃, /X.式(2.10)、(2.11),就得到下式(216)和(2.17)e=q+P C:一l ,(Vi ,l i N一1)(216)墨=P oe-l ,( vi ,1fN-1)(217)可见,要e=l ,有两种可能,或者本位自己产生进位( G=1) ;或者本位的传播信号( Z=1) 将低位的进位( G一。) 传播上来。注意G和£仅与At、忍有关,而与进位输入G一,无关。分析式( 216) 与( 217) 可知,整个加法可以分为三步操作:第一步是计算出每位的进位产生信号q和进位传播信号Z,见式( 2.14) 和式( 215) ;第二步进行每一位进位信号Cf的运算,见式( 2.16) ;第三步进行最后的和值产生,见式( 2.17) 。图2.5是加法器低四位三步操作的示意。从图25中可知第一步( G/P信号的生成部分) 与第三步( 和生成部分) 操作比较简单,而第二步( 组P、G逻辑) 是路径延时的关键。很容易发现图中的进位传播信号是用不到的,关键进位路径是虚线框中用双点划线所连接的ANDOR门链。图2-6为16位串行进位加法器构成的组P/C网络,其中灰色框代表AND-0R门,整个灰色15 硕士学位论文第二章高性能ALu的技术研究框连接起来的斜线链是关键路径。不同结构加法器的时序常常用这样的图做比较的。这样这种结构的超前进位加法器,其时延包括了产生PG的一级门延时;超前进位电路LAC产生所有进位的2( 2L-1) 级门延时;用来计算S的两级门延时,所有总的延时为:1+4Log( N) ,相比而言其速度提高了很多口61。A4B4A3B3A2B2AIBICi nCoutS3图25 4位串行加法器三步操作示意(151412aB32o)■ 匮一一_ 啊一一_ 墨,一_r_r翻r一■ _一一r■ rIr_r_ r置r一 一一■rI 15:o 14:o 13:O 12:O11:o10=O 9:O8:O7:O6o5:0_:O3:o2:O1:oo:oI图2-6串行加法器的组P/C网络下面列出串行进位加法器低四位的进位表达式16I.位P、G逻辑Gi =A BiPi =A;QBi2.组P、G逻辑3.和逻辑=EoC一。 硕士学位论文第二章高性能ALU的技术研究r瓯=G3+EG2+E易Gl +E昱日GoL巧=BB暑昂(2.18)(2.19)2.3.2并行进位理论并行进位理论是先行进位理论的扩展,下面介绍树型结构最常用的算法。接上面算法第f位( Vi ,2fN一1) 的进位输出为:e=G+Z G一.=G+只 (q一。+口I (G一:+C一2 (Gf一3+只一3 (⋯+丑oQ))))=Gj +# Gi 一。-t-P P一。 (G一2+P一: (q一3+£一3 (⋯+鼻 Go)”(2-20)=q:H+ef-l e一2(221)从式( 2-20) 到( 2-21) 1拘I过程中,有q:川=G,+PoG, _l ,霉:H=eoP, 一,。这样,进位传播信号就被分解为两位的子组合。如果将e一,进一步分解,则可将整个进位传播信号分解为i 位子组合。G,:,和只:,分别表示一组位( 从第i 位至第歹位) 的进位产生和进位传播函数,因此称之为块进位产生和块进位传播信号。对于几位构成一组的P/G逻辑( fkJ ) ,如果该组产生一个进位,则G.,等于1,而与输入进位无关。如果一个输入进位传播通过整个这一组,则只,为l 。这些信号表达式为:q:,=G,:女+£:^ Gk-l=,(222)尸J :,=只:^ Pk-l ,(223)最基本的情况是,=,,则有! G憎兰Gi =AI BiL只:,三P=4oE(2-24)第0位信号定义为fGo:o=C/?lL eoo=0(2-25)q:,和£:,是原来进位公式的一般化,进位产生和进位传播函数可以看作是一个整体,这两个函数构成一个新函数( G,∥ P,) 。基于该二元组,定义一种新的布尔运算㈣:定义式( 226) 表示的两组二元函数之间的运算,称为并行前缀运算( Prefi xOperati on) ,其运算符为“ o 。17C.昂毋B●+eq昂墨异B£弓q瞩瞩K邱最,)2,3彬氇惕叫++G狮扣脚懈鹄h++卵西肥%%%瓯qqq==l=GGGG厂●●●●●●Jf、●●●●●L 硕士学位论文第二章高性能ALU的技术研究( G,尸) o( G,尸.) =( G+P G,P P.) ( 2- 26)根据此定义推论,对于组进位产生和组传播函数对( q∥ 名.,) ,( Vf,vj ,0J fN一1) ,它们可以表示为一系列进位产生和传播函数(G∥ £,)=(q,只)。(G一。,只一。o⋯o(G『+l ,e+。)。(G,,e)(2-27)上面提到图2-6常常用来比较不同结构加法器的时序问题,以树型为代表结构的并行前缀也不例外。为了把上式用图的形式表示出来,就定义了几个块单元,如下图2.7所示Gi :kD/-i :kGk.1:jPk-l :ji :kk1.jf/一qGi :jGi :kPi :k西Gk-i :J工i:j图2-7树型结构的块定义1.J◆1.J吒Gi:j伊CJi:j黑色方块包含组产生逻辑和组传播逻辑,表达式见式( 2.22) 和( 2.23) ,它恰好表示的是前缀运算“ o;灰色块只包含组产生逻辑,常用在树型结构每列的末尾用以计算每位的和值,表示式为式(222);黑色反向器常用来减轻关键路径上的负载;每条线代表一束组产生和组传播信号。上图2.7为这些块单元组成树型结构的一个典型代表【2引。用这些块和线束组成的加法器的进位链部分可以表示为非循环图的形式。如果将前面讨论过的串行进位加法器表示成前缀运算的方式,就形成图2-6所示的结构【291。如果将加法每位的进位产生和进位传播信号对( G,P) 并行地进行前缀运算,则构成并行前缀进位模块。一般来说,该模块常组织成树型结构,因此并行前缀加法器通常也称为树型结构加法器。代表性的并行前缀进位结构有Kogge.Stone树、Brent.Kung树和Skl ansky树和由它们衍生出几种结构,如HanCarl son树、LadnerFi scher树、Knowl es树等。表2.3为前缀运算算法。18k/酞中埘 硕士学位论文第二章高性能ALU的技术研究ICo=Co+e0C-l =Go:o+咒:otlJG=Gl -I-暑co=Gl +鼻Co+e, e0C_l =Gl :o+只:oCl1C2=G2+昱G=G2+昱Gl +ge, c0+ge, eoc_l =G2:o+£:oC-l(228)lC3=63+只C2=63+只G2+B忍Gl +忍最#Go+B£鼻层c-。=G3:。-I-只:。C-l2.3.3各种最优树形结构的理论研究代表性的并行前缀进位结构有KoggeStone树、BrentKung树和Skl ansky树和由它们衍生出几种结构,如HanCarl son树、Ladner.Fi scher树、Knowl es树等。以下对这些结构分别进行分析和比较。1.KoggeStone树Kogge.Stone树【30】是理论上最快的树型结构,如图2.8所示。对于Ⅳ位的加法运算,在位置2 一1(扛l ,2,3⋯)上的进位产生和传播信号只需要l og,N步就可以计算出来。并且它的互连结构比较规则,利于用VLSI实现。另外,整个Kogge.Stone树结构各处的扇出,特别是关键路径上的扇出,基本上是一个常数,因此简化了为达到最优性能确定晶体管尺寸的任务。小的扇出也使晶体管尺寸可以较小,从而减小了版图的面积。但与此同时,对于2 一l 以外的位置上的进位信号,需要复制进位树结构。因此运算结点为Ⅳl og,Ⅳ一Ⅳ+l 。这造成了面积和功耗方面较大的代价,也使互连线增多,在版图实现上造成困难。19 硕士学位论文第二章高性能ALU的技术研究(65432。0:-nnnnnnnnnnnnnnnr.2 1111 1010 9988776655 44332211 0_n而而亓 甬而/ /亓而而甬而而,一一nr1r1214.11131012 911 810 7968S74635 241302 0- r1亓而希三三希 r1希希蒿希再三三多_,,一r1,r1r5:814 713.612511 410 40匿几而甬鬲鬲禹_一:::吞霎萎至至至三三=::=:鬲,,1 r1r1 r15:0 14:0 13:0 12:0 11:0 10:09:08:07 0 6 05 O 4 O 3O 2 O1 O 0 0图2- 8 Kogge-Stone树型结构2.Brent-Kung树.针对Kogge.Stone树在面积和功耗上的问题,一种较为简单的Brent.Kung树13l J被提出,如图2-9所示。它有正反两个二进制树,正向二进制树只实现2 一l 位置上的进位信号,反向二进制树来实现其它位的进位。它只有2N一2一l og,N个运算结点,几乎是Kogge.Stone树结点数目的三分之一。这大大减少了实现代价和连线复杂度。但是与此同时,Brent.Kung树的逻辑级数却增加为2l 092 N-1,将近是Kogge-Stone树的两倍,这导致速度明显降低。另外,Brent.Kung树布线结构不太规则,并且各个门的扇出也不太相同,这使得优化性能比较困难。因此,Brent.Kung加法器很不适合非常大的加法器( 大于32位) 。( i s1413121 。0)-nrIn,rlnr_nr_n,rInrrlnr置nr5 1413 121110987:6543:21 0I1r_ I/1 r_ I/1 r圄r1r5 1211 87:43 0II1r瞳匾1r15 87.0蠢畈1r_ r、r0、 r匣 /、r置 l/1r_ 曩/1 r_^,r_n厂_小r圄n厂_茹厂量九rlnr115:014:013:012:011:010:09:08:07:06:05:04:03:02:01:o0:0l图2-9 BrentKung树型结构3.Skl ansky树Skl ansky树 321是另一种极端情况,它有最小的逻辑级数l og:N,只需要一个布线通道,运算结点也只有( Nl 092N) /2个,仅为Kogge-Stone结构的60%。但是,Skl ansky结构的最大扇出却随着逻辑级数Ⅳ的增加而线性增大! 这使得电路负载急剧增大,对电路面积和运算速度都有影响,也使晶体管尺寸优化变得非常困难。20 硕士学位论文第二章高性能ALU的技术研究Skl ansky树型结构见图210所示。(65432。o)厂nr_n厂_nr1:0_nrr-九,rIn厂_nr_ l1 r-3:2罾/匿r11r:1413:1211:109:87:65:4_ I/I I/1rI I I/11r_ I/I I/11rl:1214:1211:810:87:46:43:02:0l I/I,I/I I/11r1_ l/_ /l 曩/_/11r1II_12 85:814 813 8目ri r露冒/髓r置r l r翟i/l 罾/ 1r r1 r1 I15:014:013:012:011:010:o 9:o8:o 7:o6:o5:o 4:o3:o2:o1:oo:oI图2-10 Skl ansky树型结构4.Han-Carl son树T.Han和D.Carl son在1987年提出HanCarl son树【33】型结构,对逻辑级数和扇出进行了很好的折衷,得到了广泛应用。其结构如图2.1l 所示。在Han-Carl son加法器中,采用奇偶相间级联的位片式设计,主体进位树只计算奇数位(CⅣ一。cⅣ-3-C3C1)的进位,进而通过奇数位的进位来产生偶数位(CⅣ一:cⅣ一。⋯C2Co)的进位。这样,主体进位树只需要计算一半的进位,从而避免了完全进位树结构,减小了复杂度。它的运算结点为( Nl og,N) /2个,是KoggeStone结构的60%,这与Skl ansky结构相同。Han.Carl son结构具有最小的扇出2,最大布线,都比Kogge.Stone结构小,并且结构也较规整。但是,HanCarl son树的逻辑级数为l og,N+l ,比理想情况多一级,因此在速度上略微有所损失。图2-11Han- Carl son树型结构5.Ladner-Fi scher树Ladner-Fi scher树【34】型结构是Brent.Kung结构的改进,它对逻辑级数和最大扇出之间进行折衷,用扇出的增大来换取延迟的减小,其结构如图212所示。Brent-Kung2l 硕士学位论文第二章高性能ALU的技术研究树具有最小的布线,可根据具体需要来调节逻辑级数和最大扇出之间的权重。它的运算结点较少,结构较规整,因此是一种较好的结构。但是对于速度要求较高的应用,这种结构往往不适合。1:o图2- 12 Ladner- Fi scher树型结构6.Knowl es树英国的Si mon Knowl es在1999年提出一组加法器结构,人们将这组结构统称为Knowl es树型【35】加法器。所有的Knowl es树都具有最小的逻辑级数( 109,N) ,它们在布线通道和最大扇出之间进行折衷,因此具有很好的速度和面积特性。文献详细描述了这类加法器的结构。Knowl es加法器采用【口,b,C,d⋯】的命名来描述各种不同类型的进位树结构,其中a、b、C、d⋯ 分别表示最后一级( 即l og,N级) 、l og,N一1级、l 092Ⅳ一2级、l 092Ⅳ一3级等自后向前各级的扇出。图2一13表示了Knowl es[2,1,l ,1】加法器的结构。由于Knowl es树是一组树型加法器结构,因此可根据具体需要来选择合适的形式,达到布线通道和最大扇出之间最佳的折衷。这类加法器结构在微处理器设计中被广泛采用。(6543210)Innnnn九nnnnnnn九nrl :1414:1313:1212 11111010.9988 7766.5544 3322:11:0一一I ri 亓一而一而,/亓亓一,,一亓而而昏,riIIriril :1214:1113 1012:911 810 7968 57 46:3524.1302:O:=::多多至至至豸主至至至多...

  2017年内蒙古财经大学财政学802经济学之西方经济学(宏观部分)考研导师圈点必考题汇编

  2017年河南科技大学化工与制药学院871有机化学考研仿线年内蒙古民族大学教育科学学院812普通心理学考研题库

  2017年四川美术学院美术教育系610中外美术史论之中国美术简史考研强化模拟题

  2017年北京理工大学人文与社会科学学院853政治经济学之政治经济学考研强化模拟题

  2017年烟台大学法学院822法学综合二之宪法考研仿线年西安建筑科技大学文学院354汉语基础[专业硕士]之现代汉语考研强化模拟题

  2017年西南民族大学西南民族研究院708汉语文考研仿线年上海海洋大学工程学院920控制理论基础考研冲刺密押题

  2017年曲阜师范大学物理工程学院333教育综合[专业硕士]之外国教育史考研强化模拟题

http://jubileeny.net/xianxingsuanfa/418.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有