近日,北京大学集成电路学院/集成电路高精尖创新中心独立研究的 2 篇论文在加拿大多伦多举行的第56届微架构国际研讨会(56th International Symposium on Microarchitecture,MICRO‘56)发表。2 篇论文的成果涵盖新型硬件加速器设计,芯片仿真优化等多个方面。
Tileflow: 基于树分析的数据流融合建模框架
神经网络的加速在现在的 AI 时代尤为重要。但随着神经网络模型的规模不断扩大,计算和内存带宽的差异也越来越大,现在,内存带宽已经逐渐取代计算成为神经网络的运行瓶颈。为了加快网络的运行速度,流行的方法是将多个网络层融合在一起,减小对内存的数据访问。这样的优化方法依赖灵活准确的性能模型,以方便评估、架构分析和设计空间探索。针对目前数据流算子融合的分析模型不足的问题,北京大学梁云研究员领导研究的小组提出TileFlow的框架,为运算器融合的数据流建模。该框架将融合数据流的设计空间描述为一个包含计算顺序、资源绑定和循环嵌套的三维空间,引入以 Tile 用于表达空间中的数据流设计,并通过树分析的方式来对关键性能指标进行分析,来计算算子融合后的理论性能。通过TileFlow的分析,加速器的数据移动量和内存资源占有率可以得到更准确的评估,这些指标在神经网络优化中非常重要。借助TileFlow的分析,架构设计人员和数据流设计人员可以实现更好的神经网络性能优化。相比于最先进的数据流优化,TileFlow在 Attention 和 Convolution Chain 上分别有 1.85 和 1.28 倍的性能提升。该工作以《TileFlow: A Framework for Modeling Fusion Dataflow via Tree-based Analysis》发表,第一作者为五年级博士生郑思泽,通讯作者为梁云研究员。
Khronos: 合并内存访问以改进寄存器传输级仿真
寄存器传输级(RTL)仿真是芯片设计流程中重要的一个步骤。根据统计,芯片设计 70% 的时间用在仿真和验证,其中大约 30% 的时间是 RTL 仿真。目前,软件RTL仿真器因为其灵活性高和调试能力强,在RTL仿真中起到重要的作用。 然而,目前最先进的仿真器平均消耗45%的指令做内存访问,消耗了大量的时间,并拖慢了整体的性能。针对仿真的内存优化,梁云小组提出了Khronos 仿真器。Khronos 发现并利用连续的时钟周期内,内存访问的时间局部性。通过融合这些访问,内存访问可以得到大幅度的减小,从而提高整体性能。该仿真器通过发现跨周期的数据依赖分析,对时钟边缘的寄存器等内存读写做合并优化,实现更高效的芯片仿真。为了优化跨周期的内存读写,Khronos将数据依赖建模为整数线性约束、非线性目标函数的优化问题。通过迭代进行线性化和对偶化,可以在较快时间内求出问题的较优解。与最新的仿真器相比,Khronos能够减少最高88%内存访问,提供 2.0(最高4.2倍)的加速。该工作以《Khronos: Fusing Memory Access for Improved RTL Simulation》发表,本科生周可行为第一作者,通讯作者是梁云研究员。据统计,这是中国大陆第一篇本科生为第一作者发表在 MICRO 上的论文。
背景链接
在芯片制作的流程中,好的工艺和设计自动化(EDA)工具构成了芯片的躯体,决定了芯片的性能极限;而体系结构则是芯片的大脑,负责控制芯片的组织架构,以充分发掘芯片的性能。由电气电子工程师协会(IEEE)和美国计算机学会(ACM)共同举办的微架构国际研讨会(MICRO)是最富有影响力的微架构领域国际会议之一。 该会议是展示、讨论和辩论先进计算和通信系统微体系结构思想和技术的顶级论坛。会议旨在结合学术界与工业界的不同观点,讨论面向未来的芯片架构。MICRO 与 计算机架构国际研讨会(ISCA)共同被认为是体系结构领域最重要的两个会议。今年,MICRO 为第 56 届会议,于 2023 年 10 月 28 日到 11 月 1 日在加拿大多伦多举行。