北大集成电路学院

新闻动态

【暑期课程】第七课：算能高级副总裁高鹏分享“智算处理器设计思考与实践”主题讲座顺利举办

发布时间：2024-07-11 浏览量：

7月9日下午13时，由北京大学集成电路学院、集成电路高精尖创新中心、北京大学国家集成电路产教融合创新平台、集成电路科学与未来技术北京实验室、后摩尔时代微纳电子学科创新引智基地联合主办的《集成电路设计技术与产业应用发展》暑期课程继续如期举办。本期课程邀请到算能高级副总裁高鹏为大家带来主题为“智算处理器设计思考与实践”的报告。北京大学博雅特聘教授叶乐主持讲座。

高总的报告内容深入浅出，主要围绕智能计算的四个维度：计算、控制、内存、互连进行了详细的解读。他首先介绍了大语言模型(LLM)的两个阶段：prefill（生成第一个token）、decode（生成接下来的token）。对比了Groq与H100的性能，分析了片上存储与访存带宽的权衡，以及他指出，一个节省计算的关键技术是KV Cache。高总接着对比了CNN和Transformer，指出前者数据重用率高，后者对带宽的压力大。他进一步分析了单看CNN，每一层的计算量和访存需求不尽相同；单看Transformer，prefill阶段对计算需求高，decode阶段由于KV Cache的作用，对于访存的需求更高，如果增加batch，那么对于计算的需求则会相应地提高。

高总将深度学习应用划分为四种维度，分别是计算、控制、访存和互联，并分别讨论这些维度在深度学习应用中的影响和作用。

在讨论计算这个维度时，高总强调了DSA的成本效率和能量效率，指出相比于通用处理器，更多的计算单元、更少的控制逻辑、更多确定性的数据流是DSA的主要特征。他还以Nvidia的TensorCore与Google的TPU为例，对比了Tensor Core和Systolic Array这两种典型的矩阵计算单元，指出TensorCore适合计算小规模大批次的矩阵乘法，而SystolicArray更适合大规模少批次的矩阵乘法。对于控制维度，高总提出深度学习不仅有矩阵乘法，还需要很多的控制逻辑，例如向量计算、标量计算、向量排序等。专门在DSA中实现控制逻辑会很花费成本，而使用RISC-V是性价比更高的选择。RISC-V作为开源的指令集架构，目前有许多开源或者商用的核能够满足不同性能的需求，同时，开源的特性使得定制化变得更加容易，能够更好地与智能加速单元耦合。他还提到了Google、Tesla、算能都使用RISC-V处理器控制，但同时也指出在处理器中进行向量计算，处理器和DSA之间的数据搬运可能成为瓶颈。在讨论内存维度时，高总分析了近存计算的成熟技术，如SRAM、HBM（High Bandwidth Memory）以及WoW（Wafer on Wafer）。HBM层与层之间通过Micro Bump相连接，存在Bump之间间距过大的问题，导致带宽不大。WoW的优势在于层与层之间没有填充物，容易散热；使用hybrid bonding技术，间距小，带宽大。最后，高总讨论了互连维度，包括NoC、D2D、C2C等技术，并以Tesla Dojo等为例，讲解了当前商用的互联技术以及带宽。

为了更好地理解深度学习应用的四个维度，高总以SG2380处理器为例，详细解析了其内存、控制和编程模型等方面的设计。他指出，SG2380的单batch LLM瓶颈在于带宽和内存容量，因此选择了256bit LPDDR。同时，SG2380采用了SiFive的VCIX接口与DSA交互，数据输入1024bit，数据输出512bit。在编程模型方面，SG2380将数据视为四维张量，这样可以更好地适应计算的需求。

在提问环节，高总就计算功耗、控制逻辑设计、内存优化和互连技术等方面与大家进行了深入的讨论和交流。例如，对于RISC-V如何控制DSA，高总表示，处理器会识别指令，将未知的指令通过扩展接口传输给DSA进一步解码，达到扩展指令的目的；DSA采用SIMD的指令数据流，多个lane接受相同的指令，在逻辑上处于并行计算。

【个人介绍】

高鹏先生本硕均就读于北京邮电大学。此前供职于威盛电子，主导多款大规模ARM SOC处理器的设计和量产，主要负责技术研发、市场战略方向。

高总深耕IC设计19年，是深度学习和中大规模SOC处理器设计领域专家，持有10余项发明专利，是国内深度学习和RISC-V领域最早期的探索者和践行者。

自加入算能以来，成功主导了算能智算处理器BM1684、BM1684X的研发与商用；带领产品团队定义和交付了首颗RISC-V服务器级处理器SG2042；目前负责SG2380产品定义和研发。

【企业介绍】

算能成立于2020年，致力于成为全球领先的定制算力提供商，专注于RISC-V、TPU处理器等算力产品的研发和推广应用。公司遵循全面开源开放的生态理念，携手行业伙伴推动RISC-V高性能通用计算产业落地；打造覆盖“云、边、端”的全场景产品矩阵，为数据中心、AIGC、城市运营、智能制造、智能终端等多元场景提供算力产品及整体解决方案。算能在北京、上海、深圳、青岛、厦门等国内10多个城市及美国、新加坡等国家设有研发中心。自2016年以来，旗下品牌算丰SOPHON系列产品已完成多次迭代，每代产品相较于前代产品均实现了能耗比倍数级提升。