近日,计算机体系结构顶级会议ACMASPLOS 2024在美国加州圣迭戈举行。在此次大会上,北京大学集成电路学院/集成电路高精尖创新中心共有3篇高水平论文入选,向国际计算机体系结构领域的同行展示了北京大学最新的研究成果。这3篇论文内容涉及深度学习内存优化、近存计算深度学习系统、大语言模型加速器等多个学术前沿领域。论文的详情如下:
1.基于图变换和图调度协同的DNN内存优化技术
近年来,深度神经网络(DNN)的内存消耗迅速增加,这主要归因于部分张量的较长的生命周期和较大的形状。虽然图调度技术是内存优化放入有效手段,但是该技术往往会显著影响性能,并且优化空间受限。另一方面,已有的图变换技术主要侧重于优化性能而非内存。为了缓解上述问题,梁云团队提出了MAGIS,一个结合图变换与图调度的DNN内存优化框架。MAGIS利用树结构来表示裂变变换,并基于对图结构的分析构建了一个轻量的裂变变换搜索空间。MAGIS将一些图调度类型解耦为图变换与重排序,并设计了一种增量调度算法,从而高效地协调图变换与图调度。该工作以《MAGIS: Memory Optimization via Coordinated Graph Transformation and Scheduling for DNN》为题发表(博士生陈仁泽为第一作者,梁云教授为通讯作者)。
文章第一作者陈仁泽线上报告
2.DRAM近存计算架构友好的深度学习系统设计
近年来,基于DRAM的近存计算商用产品被UPMEM、三星、海力士等公司提出。然而,现有商用存计算架构的低算力限制了它们在深度学习场景的应用范围,使其只能处理延迟占比较小的逐元素算子和矩阵向量乘算子。为了缓解这一问题,孙广宇团队与微软亚洲研究院合作,为商用DRAM近存计算平台进行了算法层与系统层的协同优化。作者们改进了对DRAM近存计算架构友好的LUT-NN算法,并对其在DRAM近存计算架构上的执行进行了数据流优化,并进一步将上述设计在UPMEM的商用硬件上进行了原型实现。该工作以《PIM-DL: Expanding the Applicability of Commodity DRAM-PIMs for Deep Learning via Algorithm-System Co-Optimization》为题发表(博士生李聪为第一作者,孙广宇副教授和微软亚洲研究院王阳研究员为共同通讯作者)。
文章第一作者李聪现场报告
3. 面向大语言模型投机采样推理的软硬件协同加速
大语言模型的自回归解码是其进行文本生成的严重瓶颈。为了加速解码过程,投机采样推理引入了更轻量的草稿模型,通过“草稿模型解码-大语言模型验证”的方式加速文本生成。然而,在投机采样推理中,不同模型执行着不同的运算模式,并且需要同时对计算密集算子和访存密集算子进行加速,这些特点使得现有系统无法充分发挥投机采样推理的加速潜力。为了缓解这一问题,孙广宇团队提出了一种基于DRAM近存计算架构的异构加速器软硬件协同设计方法。在硬件设计上,该方法探索最适合每种模型的近存计算架构配置。在软件设计上,该方法不仅优化了不同模型之间的协作数据流,还优化了每个模型在异构硬件上的执行数据流。该工作以《SpecPIM: Accelerating Speculative Inference on PIM-Enabled System via Architecture-Dataflow Co-Exploration》为题发表(博士生李聪为第一作者,孙广宇副教授为通讯作者)。
文章第一作者李聪现场报告
背景链接1:
ASPLOS会议全称为ACM International Conference on Architectural Support for Programming Languages and Operating Systems,是计算机体系结构领域的顶级学术会议,与ISCA、MICRO和HPCA并称计算机体系结构领域的“四大会”。它综合体系结构、编程语言和操作系统等领域,并且重视各领域间的交叉。该会议曾推动了多核处理器、虚拟化、RAID、RISC、深度学习处理器等计算机系统领域的核心创新,在学术界和工业界拥有显著的影响力。
背景链接2:
北京大学集成电路学院成立了国内唯一聚焦EDA技术的“设计自动化与计算系统系”,打造先进的教学与人才培养体系,并与国内外领先的企业深入合作,部分成果已经成功得到转化应用,相关技术是业内目前唯一的解决方案;同时,依托院系新成立了北京大学无锡EDA研究院,加上之前与EDA及设计方向的头部企业共建的多个联合实验室,形成了教育、科技和人才三位一体的布局。