北大集成电路学院

新闻动态

北京大学集成电路学院/集成电路高精尖创新中心2篇文章入选第56届国际微体系结构国际研讨会（MICRO’23）

发布时间：2023-11-16 浏览量：

近日，北京大学集成电路学院/集成电路高精尖创新中心独立研究的 2 篇论文在加拿大多伦多举行的第56届微架构国际研讨会（56th International Symposium on Microarchitecture，MICRO‘56）发表。2 篇论文的成果涵盖新型硬件加速器设计，芯片仿真优化等多个方面。

Tileflow: 基于树分析的数据流融合建模框架

神经网络的加速在现在的 AI 时代尤为重要。但随着神经网络模型的规模不断扩大，计算和内存带宽的差异也越来越大，现在，内存带宽已经逐渐取代计算成为神经网络的运行瓶颈。为了加快网络的运行速度，流行的方法是将多个网络层融合在一起，减小对内存的数据访问。这样的优化方法依赖灵活准确的性能模型，以方便评估、架构分析和设计空间探索。针对目前数据流算子融合的分析模型不足的问题，北京大学梁云研究员领导研究的小组提出TileFlow的框架，为运算器融合的数据流建模。该框架将融合数据流的设计空间描述为一个包含计算顺序、资源绑定和循环嵌套的三维空间，引入以 Tile 用于表达空间中的数据流设计，并通过树分析的方式来对关键性能指标进行分析，来计算算子融合后的理论性能。通过TileFlow的分析，加速器的数据移动量和内存资源占有率可以得到更准确的评估，这些指标在神经网络优化中非常重要。借助TileFlow的分析，架构设计人员和数据流设计人员可以实现更好的神经网络性能优化。相比于最先进的数据流优化，TileFlow在 Attention 和 Convolution Chain 上分别有 1.85 和 1.28 倍的性能提升。该工作以《TileFlow: A Framework for Modeling Fusion Dataflow via Tree-based Analysis》发表，第一作者为五年级博士生郑思泽，通讯作者为梁云研究员。

Khronos: 合并内存访问以改进寄存器传输级仿真

寄存器传输级（RTL）仿真是芯片设计流程中重要的一个步骤。根据统计，芯片设计 70% 的时间用在仿真和验证，其中大约 30% 的时间是 RTL 仿真。目前，软件RTL仿真器因为其灵活性高和调试能力强，在RTL仿真中起到重要的作用。然而，目前最先进的仿真器平均消耗45%的指令做内存访问，消耗了大量的时间，并拖慢了整体的性能。针对仿真的内存优化，梁云小组提出了Khronos 仿真器。Khronos 发现并利用连续的时钟周期内，内存访问的时间局部性。通过融合这些访问，内存访问可以得到大幅度的减小，从而提高整体性能。该仿真器通过发现跨周期的数据依赖分析，对时钟边缘的寄存器等内存读写做合并优化，实现更高效的芯片仿真。为了优化跨周期的内存读写，Khronos将数据依赖建模为整数线性约束、非线性目标函数的优化问题。通过迭代进行线性化和对偶化，可以在较快时间内求出问题的较优解。与最新的仿真器相比，Khronos能够减少最高88%内存访问，提供 2.0（最高4.2倍）的加速。该工作以《Khronos: Fusing Memory Access for Improved RTL Simulation》发表，本科生周可行为第一作者，通讯作者是梁云研究员。据统计，这是中国大陆第一篇本科生为第一作者发表在 MICRO 上的论文。

背景链接

在芯片制作的流程中，好的工艺和设计自动化（EDA）工具构成了芯片的躯体，决定了芯片的性能极限；而体系结构则是芯片的大脑，负责控制芯片的组织架构，以充分发掘芯片的性能。由电气电子工程师协会（IEEE）和美国计算机学会（ACM）共同举办的微架构国际研讨会（MICRO）是最富有影响力的微架构领域国际会议之一。该会议是展示、讨论和辩论先进计算和通信系统微体系结构思想和技术的顶级论坛。会议旨在结合学术界与工业界的不同观点，讨论面向未来的芯片架构。MICRO 与计算机架构国际研讨会（ISCA）共同被认为是体系结构领域最重要的两个会议。今年，MICRO 为第 56 届会议，于 2023 年 10 月 28 日到 11 月 1 日在加拿大多伦多举行。