针对GPGPU设计，Cadence RTL到Signoff流程全解密-上海搏嵌电子技术有限公司

针对GPGPU设计，Cadence RTL到Signoff流程全解密

2021-07-06

　　近年来，随着GPU在通用计算领域的高速发展，逐渐将应用范围扩展到图形之外，例如人工智能、深度学习和自动驾驶。这些领域的特点要求GPU在并行处理海量数据的同时提供更高的访存速度和浮点运算能力。

　　在这种计算密集度越来越高的情况下，我们也面临越来越严峻的挑战，比如在后端摆放和绕线阶段的拥塞问题，如何比较精确地在较早阶段考虑物理信息，提前预测RTL的质量，还有提前预测布局变得尤其重要；在并行同步的信号会增多，大量的矩阵运算引入的情况下，Glitch Power占比会显著提高，如何在较前阶段去分析和避免Glitch功耗是我们避不开的难题；同时由于GPU重运算和流水线的设计加上众多旁路分支结构，OCV影响会更加显著，如何评估和解决时钟上OCV是解决时序收敛的关键因素。

　　针对以上GPGPU面临的挑战和痛点，Cadence提供了一整套从RTL到Signoff的全流程解决方案。

　　Overview of GPU

　　在谈论GPGPU之前，我们先聊下GPU。GPU即图形处理器，又称显示芯片，主要负责在PC、服务器、游戏机和移动设备上做图像和图像相关运算工作的处理器。

　　GPU内部组成一般包括图形显存控制器、压缩单元、BIOS、图像和计算阵列、总线接口、电源管理单元、视频管理单元、显示接口，GPU的控制单元比较简单，但是图像和计算阵列占据了GPU的大部分面积，其中计算阵列采用设计简单的逻辑运算单元，通过大量复用的方式来并行执行高强度的运算。

　　每个ALU单元都配有独立的缓存单元，同时还有统一的内存来实现多线程并行任务。因此GPU有着较大的吞吐量和并行处理数据的能力。

　　1.1从GPU的应用领域来看

　　图像处理器GPU作为芯片的重要组成部分被广泛地应用于PC、高性能服务器、自动驾驶汽车和以智能手机为主的移动设备等。无论是在工作生活还是娱乐方面，GPU都发挥着不可替代的作用，极大地方便了我们的生活。

　　在不同的应用领域中，根据其工作特点，衍生出不同类型的GPU，主要分为独立GPU和集成GPU，独立GPU拥有独立显存，一般作为一个独立的组件封装在显卡电路板上，它的特点是性能高，具有较强的专业图片处理能力，提供较高的计算速度，所以独立GPU一般较多地应用于重计算的服务器、高性能游戏电脑、人工智能等；而集成GPU常和CPU共用一个Die，共享系统内存。它的特点是注重能效比，即可以牺牲一定计算速度的条件下，尽可能地节省空间和功耗，这也是由便携式的移动设备一直追求的更轻更强续航能力。

　　1.2 GPGPU发展及未来趋势

　　近年来，在摩尔定律严谨的放缓和GPU在通用计算领域高速发展的此消彼长之下，通用图形处理器（GPGPU）逐渐反客为主，将应用范围扩展到图形之外，无论是科研教育、财务计算，还是在工业领域，GPGPU都得到广泛的使用，关于它的科研成果和新应用模式也层出不穷，其主要应用和发展趋势主要分为以下两个方面：

　　高能效：

　　GPGPU擅长处理计算密集型任务，但大部分应用场景都需要在满足计算或者图形处理的条件下尽量降低功耗。尤其是在核心数和工作频率，接口带宽不断提升的情况下，追求高能效是GPGPU未来发展的趋势。

　　人工智能和深度学习：

　　人工智能时代需要大量的多媒体与3D图形，所以更高的浮点计算能力意味着对图形与媒体的快速处理。深度学习算法需要处理海量数据，需要进行大量的简单运算。GPGPU拥有较强的优势，第一，GPGPU提供了多个并行计算的基础结构，可以执行海量数据的并行计算；第二，GPGPU拥有更高的访存速度；第三，GPGPU拥有更高的浮点运算能力。

　　2、GPGPU所面临的挑战

　　就从GPU本身的特性而言，GPU设计的高带宽、计算密集、管道/旁路等复杂结构往往导致后端放置和路由阶段出现拥塞问题。尤其是在前面介绍的GPGPU的未来发展趋势的情况下，设计的布局会越来越复杂，这会大大增加前端和后端之间的沟通迭代周期，所以在综合阶段提供一套高效的预测布局解决方案是目前GPU所面临的一大挑战。

　　同时深度学习和自动驾驶对海量的数据进行并行处理的需求，使得GPU同时并行同步的信号会增多，加以大量的矩阵运算，Glitch Power占比会显著提高，这类功耗常常和周围的环境有关，比如Cell type、绕线等，如何能在较前阶段准确地预测和避免Glitch功耗是我们面临的又一挑战。

　　由于GPU重运算和流水线的设计加上众多旁路分支结构，时序路径上，数据通路长短差异非常明显，时钟树结构的要求会比较高，OCV影响会更加显著，如何评估和解决时钟上OCV是解决时序收敛的关键因素。

　　3、Cadence GPGPU解决方案

　　从GPGPU未来趋势和眼下所面临的挑战出发，Cadence提供了从RTL到Signoff的一系列完整的解决方案，每套解决方案，都从全局出发，在解决每项挑战的情况下，综合考虑对其他指标的影响，实现性能、功耗和面积全面提升。

　　3.1 RTL质量预测

　　对于RTL工程师来说，在GPGPU芯片结构越来越复杂的情况下，如何提前预测RTL最终实现的PPA是我们面临的最大挑战。

　　传统Flow中我们一般需要后端提供一个Floorplan给前端去做综合，基于Floorplan做完综合之后再传给后端，这就需要前端和后端进行不断的的沟通修改的迭代，大大增加了设计周期和人力资源。

　　基于此，Predict_Floorplan应运而生，即在Genus中调用Innovus的Floorplan引擎，在前端给出一个合理的Floorplan。这不仅可以较早去判断RTL的可行性，及时对RTL进行修改，并且简化了前后端的交互，大大缩短了迭代周期。与传统流程相比，这种解决方案在实现相同的最终平面布局情况下，可以减少约80%的设计周期。并且让前端工程师不用熟悉后端的相关知识，就可以提前预测RTL的Timing-Power-Area具体信息。

　　3.2 Power driven full flow

　　GPU擅长处理计算密集型的任务，特别是随着核数、工作频率和接口带宽的不断增加，追求高能效是GPGPU未来的发展趋势。Cadence提供了从RTL到Signoff的Power Aware全设计流程。其中需要重点指出是对Glitch power的分析和修复，Glitch功耗在GPGPU总功耗中占据越来越大的比例，而这类功耗常常受周围环境的影响较大，Cadence在综合阶段通过调用拥有强大的波形处理能力的Joules，可在RTL阶段实现功耗分析和预估，并对早期网表进行Glitch功耗分析，实现早期芯片功耗评估。

　　3.3时钟树OCV

　　由于GPU重运算和流水线的设计加上众多旁路分支结构，时序路径上，数据通路长短差异非常明，如何减小时钟树OCV是实现时序收敛的关键。

　　Innovus Flexible H Tree的优势是H型树在电对称和平衡线长前提下同时放宽了几何对称的要求，因此即使在布局受限的平面图中也可以实现自动合成。多抽头时钟树综合与灵活的H树功能完全集成，扩展了常规时钟综合，并在树的结构化顶部和时钟接收器之间保持平衡。它可以很好的减少时钟上的OCV，更容易时实现时序收敛。

　　3.4 Signoff Fixing Solutions

　　Signoff作为整个设计流程的最后一步，同时也是关乎芯片是否能够成功流片的关键，Cadence提供了一套高效的Signoff Fixing/Check Solutions，在Timing Signoff方面，通过先进的技术可以对较多Analysis View的设计做智能处理，提供快速的精确的Timing分析和优化；在IR-Drop方面，实现了Timing Aware的IR-Drop Fix；同时可以在在PR阶段进行DRC/LVS Check，提高了整个Flow的一致性；对于越来越复杂的设计，Netlist中常常会出现较长的Data Path，Conformal提供了一套完整的成熟的解决方案。

　　4、小结

　　本文主要在基于对GPU发展和未来趋势的分析，指出了GPGPU设计所面临的一系列挑战和难题。面对这些挑战，Cadence提供了一套完善的从前端到后端的解决方案，解决了布局、功耗、时钟树OCV和Signoff所面临的难题。

　　转载自Cadence楷登微信公众号

　　上海搏嵌电子技术有限公司(英文：Shanghai BoardChain Electronics Technology Co.,Ltd.)是Cadence官方授权代理商，在PCB设计、IC设计、封装设计、系统分析、模拟仿真等方面为客户提供高效的技术解决方案和专业的研发工具，欢迎致电咨询：400-0519-668。