北大集成电路学院

新闻动态

北京大学集成电路学院集成电路高精尖创新中心17篇论文在ICCAD 2025大会发表

发布时间：2025-11-14 浏览量：

近日，以北京大学集成电路学院为第一完成单位的17篇论文在德国慕尼黑举行的第44届国际计算机辅助设计会议（ICCAD 2025）上发表。这17篇论文内容涉及新型EDA算法、人工智能调度、映射和加速器设计方法、人工智能隐私计算等多个学术前沿领域。同时李萌、林亦波、贾天宇等多位学院老师为会议TPC成员，梁云、李萌、贾天宇、马宇飞老师为会议分论坛主席。同时，李萌老师在会议组织特别论坛，聚焦大模型时代的机器学习隐私保护算法与芯片设计。

本次会议中，林亦波老师指导的博士生马瑞阳、任毅参加ICCAD CADathlon编程竞赛获得第二名，赵春源的论文《GTA: GPU-Accelerated Track Assignment with Lightweight Lookup Table for Conflict Detection》获得后端最佳论文奖提名。李萌老师指导的本科生傅子酌在ICCAD ACM Student Research Competition （SRC）中获得本科生组第一名。

部分参会师生合影

博士生马瑞阳、任毅获得ICCAD CADathlon编程竞赛第二名

本科生傅子酌获得ICCAD ACM SRC本科生组第一名

新型EDA算法方向发表论文（共5篇）总结如下：

1.考虑详细通孔连接关系的后道互连纵向等效热阻模型

不同于传统的2-D封装，在3-D IC中，后道互连层一定会占据从前道热源层到热沉的主要散热路径。由于后道互连层本身的纵向等效热阻很高，会严重阻碍3-D IC的散热，设计者需要进行高分辨率的纵向等效热阻提取，以便在热仿真中捕捉后道互连层带来的热问题。传统的通过数值仿真进行提取的方法虽然准确，但时间开销过高，建立纵向热阻解析模型是一种主流的替代思路。后道互连层中存在着许多金属通孔，这些通孔会充当热量的高速传导路径，其详细连接关系对后道互连的热阻影响很大。然而，过去的解析模型并没有将详细的通孔连接关系纳入考虑，导致模型精度很低。为解决该问题，林亦波副教授-王润声教授研究团队提出一种新型后道互连纵向等效热阻模型。该模型基于电阻网络理论和Woodbury公式，显式地将通孔详细连接关系纳入了模型中。在真实设计上的测试结果显示，相较于之前的解析模型，本模型可以实现3.4倍等效热阻精度的提升，且时间开销远远小于数值提取方法。在利用提取的后道互连等效热阻对一3-D IC结构进行进一步热仿真时，本模型成功将仿真得到的最高温度的误差从5.2%降为了1.8%。该工作以《High-Resolution Full-Chip Thermal Resistance Extraction of BEOL Interconnects in 3-D ICs Considering Detailed Via Connectivity》为题发表，博士生朱天翔为第一作者，林亦波副教授和王润声教授为通讯作者。

2.GTA：使用轻量级查找表检测冲突的GPU加速的轨道分配算法

布线是现代超大规模电路物理设计中计算量最大的阶段之一。轨道分配问题在全局布线阶段和详细布线阶段之间起到至关重要的桥梁作用。它可以给出比全局布线阶段更准确的可布线性估计，并给详细布线阶段提供初始解。然而，现有的轨道分配算法有两个关键局限：1.多数轨道分配算法对于设计规则没有感知，这使得他们没有办法给出准确的可布线性估计和高质量的详细布线初始解。2.现有的轨道分配算法都是针对CPU架构设计的，设计规则检查繁琐，并行度有限，求解所需时间长。为解决该问题，林亦波副教授研究团队针对问题特性，提出一种GPU友好的轻量级查找表，可以快速检查子任务冲突，实现提高并行度，快速进行设计规则检查，从而实现高效的GPU加速的轨道分配算法。相较于传统的多核CPU算法，该算法运行时间减少20倍，节省25%内存使用，同时可以保持相同的布线后结果质量，完善了GPU加速的EDA工具流程。该工作以《GTA: GPU-Accelerated Track Assignment with Lightweight Lookup Table for Conflict Detection》为题发表，并获得后端最佳论文奖提名。博士生赵春源为第一作者，林亦波副教授为通讯作者。

3.IncreGPUSTA：面向迭代式设计流程的GPU加速增量式静态时序分析

在超大规模集成电路（VLSI）设计流程中，静态时序分析（STA）是确保电路性能和可靠性的关键步骤，扮演着不可或缺的角色。为了应对日益增长的电路规模带来的计算挑战，业界探索了两条主要的技术路径：一是通过CPU执行增量式STA，选择性地更新受设计改动影响的电路区域以节省计算资源；二是通过GPU强大的并行计算能力加速全电路分析，以提升整体吞吐率。然而，将增量式分析的精确高效与GPU的并行加速能力有效结合，始终是一项艰巨的挑战。为解决这一难题，林亦波副教授研究团队提出了一种名为IncreGPUSTA的新型GPU加速增量式静态时序分析算法。该算法通过创新的双压缩稀疏行（dual-CSR）数据结构与增量式层级划分（incremental levelization）技术，首次实现了在GPU上对局部化和结构性电路修改进行高效的增量时序更新。在工业级标准测试集上的实验结果表明，对于百万规模的电路设计，IncreGPUSTA相较于先进的GPU全量分析工具可实现高达3.06倍的加速，相较于CPU增量式分析工具的加速比更是高达72.50倍，展现了其在现代VLSI迭代设计流程中的巨大应用潜力。该工作以《IncreGPUSTA: GPU-Accelerated Incremental Static Timing Analysis for Iterative Design Flows》为题发表，本科生刘海川和博士生郭资政为共同第一作者，林亦波副教授为通讯作者。

4.Orthrus：用于系统-工艺协同优化的双循环自动框架

随着摩尔定律的回报递减，传统的无晶圆厂-代工厂（fabless-foundry）业务模式正面临根本性限制。系统-工艺协同优化（STCO）已成为维持VLSI行业扩展趋势的一种有前景的方法，它通过连接系统需求和工艺创新来实现定制优化。然而，现有的研究缺乏高效的STCO方法论，特别是在解决跨设计层级的信息差距和驾驭广阔的跨层设计空间方面。为应对这些挑战，孙广宇教授-张立宁助理教授团队提出了Orthrus，一个自动化的双循环框架，协同了系统级和工艺级的优化。在系统级，Orthrus采用一种新机制，利用系统级统计数据优先优化关键标准单元，并通过贝叶斯优化高效探索帕累托前沿。在工艺级，Orthrus利用系统感知的洞察力来优化标准单元库，并采用神经网络辅助的增强差分进化算法来高效优化工艺参数。在7nm工艺上的实验结果表明，与基线方法相比，Orthrus在同等功耗下实现了12.5%的延迟降低，并在同等延迟下实现了61.4%的功耗节省。该框架在STCO中建立了新的帕累托前沿，PPA（功耗、性能、面积）超体积改进达到了33.2%。该工作以《Orthrus: Dual-Loop Automated Framework for System-Technology Co-Optimization》为题发表，博士生任毅和彭宝康为共同第一作者，孙广宇教授和张立宁助理教授为通讯作者。

5.Differentiable Physical Optimization：一种可微分的物理优化框架

在现代超大规模集成电路设计中，门尺寸调整与缓冲器插入极大影响芯片的性能与功耗，但传统两者分离式优化难以获得全局最优解。面对这一瓶颈，林亦波副教授研究团队提出了首个将两者统一建模的可微分物理优化框架。该方法在数学上，以严格的形式刻画了门尺寸、缓冲插入及其互相影响关系，并通过GPU加速实现高效计算。该项研究中引入时序感知缓冲树重构机制、物理约束建模及离散感知优化算法，使框架在保持低功耗与布局可行性的同时，实现无缝的联合优化。实验结果显示，相比OpenROAD等传统方案，该方法在保持功耗相近的前提下，时序指标上TNS提升23%、WNS提升12%，运行速度提升30倍，为大规模芯片设计提供了新的加速思路。该工作以《Differentiable Physical Optimization》为题发表，本科生杜宇凡为第一作者，现为UCLA博士生，林亦波副教授为通讯作者。

人工智能调度、映射和加速器设计方向发表论文（共11篇）总结如下：

1.HD-MoE：基于三维近存处理的混合专家模型混合动态并行加速技术

混合专家模型已成为大语言模型的关键技术，通过稀疏激活专家子网络降低计算成本，但面临高内存带宽需求挑战。三维近存处理通过垂直堆叠内存与计算单元提供高带宽能效，成为混合专家模型部署的理想平台。然而，三维近存处理的分布式架构使混合专家模型计算映射复杂化，现有并行策略如张量并行和专家并行存在通信开销高或计算负载不均问题，且专家激活呈现高度不平衡与动态变化特性，进一步加剧了系统效率的下降。为应对上述问题，李萌研究员团队提出了HD-MoE，一种面向三维近存处理架构的混合动态并行框架。HD-MoE通过一套集成了自动化混合并行映射与在线动态调度的协同设计，有效解决了混合专家大语言模型在三维近存处理架构上因动态路由与分布式内存特性所导致的计算负载不均与通信开销高昂问题。实验基于Mixtral、DeepSeek和Qwen等MoE模型，在多种硬件配置下验证。结果显示，HD-MoE相比张量并行提速1.1–1.8倍，相比专家并行提速1.1–1.5倍，较混合基线策略提升1.0–1.4倍。该工作以《HD-MoE: Hybrid and Dynamic Parallelism for Mixture-of-Expert LLMs with 3D Near-Memory Processing》为题发表，本科生黄浩宸和博士生仲书璋为共同第一作者，李萌研究员为通讯作者，为边缘端MoE推理提供了低延迟、高能效的部署方案。

2.APS：面向敏捷处理器定制的高效硬件-软件协同设计开源框架

领域特定应用的快速发展，对专用指令集处理器的敏捷开发提出了迫切需求。RISC-V开放指令集虽为通过指令扩展实现处理器定制化提供了可能，但当前开源RISC-V生态系统在支持敏捷硬件-软件协同设计方面面临根本性挑战：各异SoC平台的接口互不兼容，导致扩展指令难以复用；指令硬件综合环节薄弱，传统工具无法有效处理扩展单元与处理器内存系统间的交互，也缺乏对有状态行为的支持；编译器支持不足，开源生态中缺少能够自动识别、调度自定义指令并优化寄存器带宽利用的软件工具。为系统性解决上述挑战，梁云教授研究团队提出了APS，一个用于领域专用处理器敏捷开发的硬件-软件协同设计开源框架。该框架通过定义统一指令扩展接口，屏蔽了底层平台差异；进而推出跨层级架构描述语言，支持灵活描述指令行为并自动合成为动态流水线硬件；同时，其编译器基础设施集成了模式匹配与位宽感知向量化技术，可自动将程序中匹配的操作映射为高效的指令扩展调用。在后量子密码学、机器学习等多个负载上的案例研究表明，仅需不足175行的指令扩展描述，APS即可实现面向多RISC-V平台的2.29倍至14.99倍性能加速。该工作以《Invited Paper: APS: Open-Source Hardware-Software Co-Design Framework for Agile Processor Specialization》为题发表，博士生肖有为为第一作者，梁云教授为通讯作者。

3.CIMTester：一种用于高可靠性存内计算的敏捷、无需黄金参考结果的BIST编译器

数字存内计算（DCIM）因其显著的效率优势，正在高效能人工智能（AI）计算芯片中扮演日益重要的角色。然而，DCIM将存储单元和计算逻辑紧密结合的特性给测试带来了严峻挑战，包括存储与逻辑之间额外的耦合故障、片上生成用于验证的“黄金参考结果”（golden result）的高昂开销以及故障精准定位困难等问题。为解决这些问题，贾天宇研究员-叶乐副教授研究团队提出了一种无需golden result的BIST（内建自测试）架构，并结合了计算耦合的CIM BIST算法，来有效降低测试开销并提高测试覆盖率。此外，为适应芯片上快速变化的测试需求以及不同规模和数量的DCIM宏单元，本文还提出了CIMTester——BIST编译器。CIMTester 可以基于模板并根据测试芯片的架构参数自动生成BIST RTL代码，其中包含一组BIST结构迭代器，能分析不同的BIST组件共享策略，以满足用户在面积、测试时间和故障覆盖率上的特定需求。通过在TSMC 22nm DCIM宏单元上实现和评估生成的BIST电路，该方案实现了高达99.48%的故障覆盖率，而面积开销低于2.44%。该工作以《CIMTester: An Agile Golden-Result-Free BIST Compiler for Robust Compute-in-Memory》为题发表，博士生任文捷为第一作者，贾天宇研究员和叶乐副教授为通讯作者。

4.LP-Spec：利用LPDDR-PIM与架构-数据流协同优化实现高效大模型移动端投机采样推理

由于移动端硬件限的内存带宽与计算能力，大语言模型（LLM）移动端部署面临额外的挑战。为了解决这些问题，研究者在算法和硬件层面分别提出了投机采样推理和内存处理（PIM）技术。然而，投机采样推理会导致计算密集型 GEMM 操作，给现有的 GEMV 加速型 PIM 架构带来了新的设计权衡。此外，基于树结构的投机采样推理中存在大量冗余的草稿令牌，需要高效的令牌管理方案来最大限度地减少能耗。为解决这些问题，贾天宇研究员-何燕冬研究员研究团队提出了一种架构数据流协同设计方法，利用混合LPDDR5性能增强型 PIM 架构并结合草稿令牌修剪和动态工作负载调度来加速LLM投机采样推理。与其他移动解决方案相比，该方案在性能、能效分别实现了 13.21 倍和7.56 倍提升。与RTX 3090 GPU 相比，实现415.31倍的能量延迟积降低。该工作以《LP-Spec: Leveraging LPDDR PIM for Efficient LLM Mobile Speculative Inference with Architecture-Dataflow Co-Optimization》为题发表，博士生贺思远与朱展彤为共同第一作者，贾天宇研究员为通讯作者。

5.Tasa: 面向大模型推理的基于带宽共享的热感知三维堆叠架构设计

大语言模型（LLM）中自回归解码由于内存受限的算子与有限的硬件带宽成为了推理延时的瓶颈。3D堆叠架构通过在逻辑芯片之上垂直堆叠多个DRAM芯片显著提高了内存带宽，成为解决内存瓶颈的一种很有前景的方案。然而实验表明，与2D架构相比，3D堆叠架构在热方面面临着更严峻的问题，包括热温度、梯度和可扩展性等方面。为了更好地发挥 3D堆叠架构的潜力，贾天宇研究员-何燕冬研究员研究团队提出了一种跨栈热优化的异构架构来平衡温度分布并最大化在热限制条件下的性能。其中，高性能核心用于计算密集型操作，高能效核心用于内存密集型操作，并通过带宽共享调度方案提高异构架构中的带宽利用率。实验表明，该方案比同构的3D堆叠架构具有更高的扩展性。对于48核、60核和72核的配置，其峰值温度分别降低了5.55℃、9.37℃和7.91℃。相较于GPU基线和最先进的基于异构PIM的LLM加速器，其性能分别提升了2.85倍和 2.21倍。该工作以《Tasa: Thermal-aware 3D-Stacked Architecture Design with Bandwidth Sharing for LLM Inference》为题发表，博士生贺思远为第一作者，贾天宇研究员为通讯作者。

6.SpecMamba：基于FPGA的Mamba推测解码加速技术

状态空间模型（SSMs），如Mamba，因其线性计算复杂度和卓越的长序列建模效率，已成为Transformer基大型语言模型的有力替代品，在边缘设备如自动驾驶、医疗影像等场景中广泛应用。然而，Mamba的自回归生成过程仍受内存带宽限制，导致计算利用率低下和吞吐量受限。推测解码技术通过草案模型生成和目标模型验证来提升效率，但直接应用于SSMs面临三大核心挑战：隐藏状态回溯困难、树状并行验证不兼容以及硬件工作负载不匹配。为解决这些挑战，李萌研究员团队提出SpecMamba，采用系统、算法和硬件协同设计。系统层面，引入内存感知混合回溯策略，结合片外状态存储和片上激活缓存，优化状态恢复延迟；算法层面，提出基于FIFO的树验证与分块算法，通过广度优先遍历和分块计算减少内存访问；硬件层面，定制线性并行SSM串行数据流，实现计算单元的最大重叠。在AMD FPGA平台（VHK158和VCK190）上的实现表明，SpecMamba相比GPU基线（NVIDIA RTX 4090）实现2.27倍加速，相比先前FPGA解决方案（如LightMamba）提升2.85倍，同时能效分别提高5.41倍和1.26倍。该方案在多个数据集（如MT-Bench、GSM-8K）上验证了其高效性，为边缘设备的高吞吐推理树立了新标杆。该工作以《SpecMamba: Accelerating Mamba Inference on FPGA with Speculative Decoding》为题发表，硕士生钟林峰和许颂强为共同第一作者，李萌研究员为通讯作者。

7.H2EAL：基于混合键合架构与混合稀疏注意力的高效长上下文大语言模型推理加速技术

大语言模型在自然语言处理任务中展现出卓越性能，但其长上下文推理过程中的KV缓存带来高能耗与高延迟，严重限制了在端侧设备上的部署。为解决这一问题，研究团队提出了一种高效的混合键合架构加速方案H2EAL，通过算法与硬件协同设计，在保证精度的前提下显著提升长上下文推理效率。该方案在算法层面提出混合稀疏注意力机制，结合静态与动态稀疏策略，自适应选择重要上下文信息，实现高效的注意力计算；在硬件层面设计了存算协同映射与交错式负载均衡调度策略，有效缓解了多注意力头间的计算不平衡与通信代价。实验结果表明，H2EAL在Mistral-7B、LLaMA2-7B和LLaMA3-8B等主流模型上实现了最高48.21倍的速度提升与73.48倍的能效提升，平均精度下降仅为0.87%。在256k上下文长度的测试中，其推理延迟较完整注意力机制降低超过十倍，充分展示了优异的长序列处理能力与能效表现。该工作以《H2EAL: Hybrid-Bonding Architecture with Hybrid Sparse Attention for Efficient Long-Context LLM Inference》为题发表，本科生傅子酌和博士生郭笑天为共同第一作者，李萌研究员和叶乐副教授为通讯作者。

8.Clay：支持灵活微架构感知指令定制的高层次ASIP框架

专用指令集处理器（ASIP）为嵌入式系统与物联网设备提供了高能效的加速方案。开放免费的RISC-V指令集进一步推动了面向多领域加速的开源ASIP解决方案的发展。现有的ASIP工具能够基于高层架构描述语言生成软硬件系统，然而，这些工具仅支持特定处理器上的流水线内耦合策略，因而存在两个关键局限：一是限制指令扩展必须为无状态行为，导致无法硬件实现如循环等高效控制流；二是强加了严格的微架构约束，限制了指令模块与内存层级的交互方式。这些限制严重制约了应用加速的潜力，并阻碍了自定义指令在不同处理器间的灵活部署。为解决上述问题，梁云教授研究团队提出了Clay，一种开源的高层ASIP设计框架。Clay提出了统一的指令扩展接口，将不同耦合策略抽象为与微架构无关的行为和属性。基于此，Clay架构描述语言通过接口行为与高层语法相结合，支持对包括有状态行为在内的通用指令语义进行描述。研究进一步提出了微架构感知的综合流程，可为每条自定义指令选择最优耦合策略，并通过建模微架构属性作为约束，调度生成最佳实现方案。在多类负载上的实验表明，Clay在两种RISC-V处理器上均实现了显著的性能提升。该工作以《Clay: High-level ASIP Framework for Flexible Microarchitecture-Aware Instruction Customization》为题发表，博士生彭伟桀、肖有为为共同第一作者，梁云教授为通讯作者。

9.No Redundancy, No Stall：用于实时渲染的轻量级流式3D Gaussian Splatting

体渲染是重建和合成三维场景新视图的基本技术，在增强/虚拟现实和自动驾驶等应用中起着至关重要的作用。3D Gaussian Splatting（3DGS）能够实现高质量的三维场景渲染，在领域内得到越来越广泛的关注。然而，在面对高帧率需求和资源受限的边缘部署时，3DGS仍然面临着重大的效率挑战。为解决该问题，李萌研究员研究团队对3DGS渲染管线的瓶颈进行了全面分析，揭示了计算冗余和硬件停滞两个造成低效的关键挑战，并从算法优化和硬件架构设计两个方面进行了针对性改进。通过将从帧间层面到帧内层面的算法优化，方案实现了无冗余、轻量级的渲染。此外，方案设计了一种适用于3DGS的流式加速器架构，通过负载的均衡分配策略提高了硬件利用率，进一步增强了加速效果。所提出的LS-Gaussian相比于边端GPU基线平均获得了5.41倍的加速，在定制加速器下进一步获得了17.3倍的加速，同时只引起了极小的视觉质量损失。该工作以《No Redundancy, No Stall: Lightweight Streaming 3D Gaussian Splatting for Real-time Rendering》为题发表，博士生韦临烨为第一作者，李萌研究员为通讯作者。

10.Adder-DCIM：面向AdderNet推理的并行比特灵活数字存内计算加速器

面向自动驾驶、虚拟现实等对功耗、成本和延迟有严格要求的端侧AI任务，数字存内计算（DCIM）是一种极具前景的解决方案，能够有效提升芯片的能效和算力密度。然而，现有DCIM面临着乘法开销大、难以有效利用细粒度稀疏性以及位串行架构导致的吞吐量下降等挑战。为解决以上问题，北京大学唐希源研究员课题组提出了Adder-DCIM：一个高效的并行比特灵活DCIM加速器芯片，用于加速加法网络（AdderNet）推理。该加速器芯片通过结合CIM友好型模型压缩框架、同步并行DCIM架构，和比特灵活的最小选择器电路，从算法、架构到电路层面进行协同优化。该芯片设计有效解决了混合精度计算中的硬件利用率低问题，显著提升了芯片的能效和算力密度。实验结果表明，在28nm工艺下，所提出的Adder-DCIM在INT8精度下实现了134 TOPS/W的峰值能效和6.49 TOPS/mm²的峰值吞吐密度。在ResNet20和ResNet50等典型任务上，该加速方案分别以4.2bit和4.4bit的平均位宽实现了255 TOPS/W和243 TOPS/W的能效，且精度损失小于0.4%。该工作为端侧AI应用提供了高性能、高能效硬件加速方案。该工作以《Adder-DCIM: A Parallel Bit-Flexible Digital CIM Accelerator Joint Model Compression Framework for AdderNet Inference》为题发表，博士生刁海康为第一作者，唐希源研究员为通讯作者。

11.3D-MoE: 基于三维堆叠存内/近存计算架构的多专家大语言模型混合并行加速

混合专家（MoE）架构是大语言模型（LLMs）的重要突破，相比同规模激活参数的传统稠密模型性能更优，但其边缘部署面临两大挑战：稀疏参数构成导致存储需求激增，动态专家路由的不可预测性加剧冯・诺依曼瓶颈，更多专家激活数量将进一步放大此类问题。现有优化多聚焦算法与调度层面优化，但由于硬件架构适配不足，难以突破“内存墙”瓶颈。为解决该问题，马宇飞研究员团队提出3D-MoE加速器，基于混合键合（Hybrid bonding）和微缩TSV（mini-TSV）技术构建了一种3D堆叠的近DRAM计算架构，并结合6T-SRAM数字内存内计算（DCIM）单元，实现了存内计算（IMC）与近存计算（NMC）的融合；针对混合专家模型，3D-MoE设计了一种混合并行计算方案及贪心交换专家分组（GSEG）策略以平衡权重参数布局，提升硬件利用率。实验结果表明，该加速器相比CPU和GPU，推理吞吐量分别提升143.10倍和68.89倍，能效分别提升870.98倍和 47.11倍，有效适配多专家激活 LLM 的高效推理。该工作以《3D-MoE: Accelerating Multi-Expert Activated LLMs on 3D In/Near-Memory Computing Architecture via Hybrid Parallelism》为题发表，2025级博士研究生屈新宇为第一作者，马宇飞研究员为通讯作者。

人工智能隐私计算方向发表论文（共1篇）总结如下：

1.FENIX：基于近存计算的混合同态加密与安全多方计算隐私推理加速器

基于混合同态加密（HE）与安全多方计算的框架可以很好的保护数据隐私，并越来越多的被应用到了大模型的隐私推理中。通过利用同态加密处理线性层，安全多方计算中的不经意传输（OT）处理非线性层，混合框架可以实现准确的隐私推理计算。然而，由于二者涉及的算子不同且相互独立，现有的研究缺少对于混合协议的高效硬件集成而导致硬件效率低下，为此，李萌研究员团队提出了一种名为FENIX的协议-硬件协同设计加速器。在协议层面，FENIX提出了细粒度的OT划分策略，以实现HE与OT计算的重叠执行，最大限度减少计算停顿；同时引入了灵活的批量编码机制，以平衡计算与存储开销。在硬件层面，将HE与OT中占主要开销的低计算访存比的算子卸载至近存处理单元以降低整体计算延迟。实验表明，FENIX将线性层隐私推理延迟降低了59%，将整体模型推理延迟降低了62.4%。该工作以《FENIX: Flexible and Efficient Hybrid HE/MPC Acceleration with Near-Memory Processing》为题发表，博士生张腾予为第一作者，李萌研究员为通讯作者。

背景介绍：

由电气电子工程师学会（IEEE）和美国计算机学会（ACM）共同举办的国际计算机辅助设计会议（ICCAD）被公认为EDA领域最重要的会议之一，享有很高的国际学术地位和广泛的影响力。该会议是探索EDA研究领域新挑战、展示前沿创新解决方案和识别新兴技术的重要论坛，涵盖了从器件和电路级到系统级的所有设计与自动化主题、以及后CMOS设计等新型方向。ICCAD 2025为第44届会议，于2025年10月26日至10月30日在德国慕尼黑举行。