近日,被业界誉为“芯片设计国际奥林匹克会议”的国际固态电路大会(ISSCC 2023)在美国旧金山举行。今年恰逢ISSCC 70周年大庆,也是自2020年疫情以来首次全线下模式召开的芯片设计领域的国际盛会。北京大学集成电路学院的学子赴美参加此次盛会,报告了各自方向的最新研究成果,与国际同行进行深入交流。
图1. 博士生陈沛毓图2. 博士后张奕涵
图3. 博士生高继航图4. 研究员唐希源
图5.博士生盛凯图6.博士生叶秉奕(线上QA)
在本届ISSCC上,北京大学集成电路学院/集成电路高精尖创新中心共有6篇高水平论文入选,研究成果覆盖了存算一体AI芯片、模拟与数字混合芯片、时钟芯片、高速互连芯片等领域,涉及ISSCC大会全部12大领域中的4个领域,论文数在国际高校里排名第5,在国际高校和企业里排名第9,这也是北京大学连续4年在ISSCC大会上发表论文,相关内容简介如下:
(一)存算一体AI芯片
面向边缘AI场景,针对传统存内计算芯片冗余数据处理产生功耗浪费的问题,课题组提出了基于差值求和计算方式的模拟存内计算拓扑,利用边缘AI场景中输入特征值逐渐且偶然变化的特点,自适应的消除冗余数据处理产生的功耗,显著提升了神经网络计算能效。该创新通过处理输入变化量而非输入绝对值的方式,最大限度消除了不变数据处理所浪费的功耗,提升了计算效率。
北京大学黄如院士-叶乐教授团队,提出了差值输入技术和差值矩阵乘法技术,通过将输入特征值由绝对量变为变化量的方式,降低了存内计算阵列计算功耗,并实现自适应的输出分布集中;此外,还提出了低位优先模数转换器,通过减少较小数据模数转化次数的方式,在不损失计算精度的情况下,显著降低了模拟存内计算中的模数转换功耗。
基于上述创新技术,研制了差值求和模拟存内计算芯片,在8-bit输入/8-bit权重/全精度输出的情况下,实现了21.38 TOPS/W的峰值能效,1.44 TOPS/mm2的峰值单位面积算力;在综合评估指标(=能量效率×面积效率)下,达到了26.72 TOPS/W×TOPS/mm2,是世界最好的存内计算芯片的1.25倍。该创新具有高能效、高算力、高通用性三大特性,可应用于边缘端AI计算场景,如:图像识别、语音识别、安防监控等。该创新有望与图像传感器相结合,实现针对边缘端AI的感存算一体高效智能处理。
该工作以《面向边缘AI处理的基于差值求和方式的21.38 TOPS/W的SRAM存内计算芯片》(A 22nm Delta-Sigma Computing-In-Memory (ΔΣCIM) SRAM Macro with Near-Zero-Mean Outputs and LSB-First ADCs Achieving 21.38 TOPS/W for 8b-MAC Edge AI Processing)为题,发表于今年ISSCC,文章第一作者北京大学集成电路学院博士生陈沛毓进行宣讲,北京大学集成电路学院博士生武蒙为共同一作,文章的通讯作者是马宇飞研究员和叶乐教授。
(a) 差值求和存内计算芯片数据流与架构图(b)存内计算芯片显微照片
(二)高能效电容型感知芯片
该工作面向物联网传感器应用,针对不断上升的高速高精度电容数字转换器需求,实现了一款高性能电容传感器,解决了传统高精度电容传感器的架构不利于高速转换的问题,突破了传统电容采样过程中采样热噪声造成的性能瓶颈。
针对以上问题,北京大学黄如院士-叶乐教授团队,从架构和电路两个层面提出解决方案。架构层面,本工作创新性地将流水线型逐次逼近型寄存器转换架构引入电容传感器领域,突破传统架构面临的转换精度、能效和转换速度之间的折衷关系。电路层面,该工作首次提出了可应用于电容传感中的kT/C采样噪声消除技术,解决了小电容传感中的精度上限问题,突破了采样热噪声的精度瓶颈。此外,还首次提出了基于不完全建立的相关电平抬升技术,缩短了传统增益提升技术的粗放大阶段,减少了额外功耗,并将等效开环增益大幅提升,提供了极高的增益稳定性,提高了级间放大器的能量效率和精度。在提高转换速率的同时,实现了高精度(1fFrms噪声水平)电容传感器的能量效率世界纪录,相较现有工作将能效提升了一倍。
基于上述架构和电路层面的创新,课题组研制了一款基于22nm CMOS工艺的紧凑型高能效电容传感器芯片,该电路在22nm工艺下实现了对0-5.16pF电容值测量,精度达到了37.12aF,在所有高精度(1fFrms噪声水平)电容传感器中具有最高的能效(7.9fJ/conv.-step),且达到了71.3dB的信噪比,相较前人的工作将能效提升了一倍。该电路具有高能效、高精度、小面积、高转换速度等特点,可广泛应用于面向电容传感的各类物联网传感器和前端应用中,并且为电容传感芯片的小型化提供了全新的解决方案。
该工作以《基于采样热噪声消除和非完全建立相关电平抬升技术的7.9fJ/Conversion-Step,37.12aFrms噪声的流水线逐次逼近型寄存器架构电容-数字转换器芯片》(A 7.9 fJ/Conversion-Step and 37.12 aFrms Pipelined-SAR Capacitance-to-Digital Converter with kT/C noise cancellation and Incomplete-Settling based Correlated Level Shifting)为题,发表于今年ISSCC的模拟传感器前端领域(Session23 Analog Sensor Interface)分会场,由文章第一作者北京大学集成电路学院博士生高继航进行宣讲,文章的通讯作者是沈林晓研究员和叶乐教授。
(a)电容传感器架构图和创新技术(b)电容传感器芯片显微照片和性能对比图
(三)极低功耗振荡器芯片
该工作面向智能物联网AIoT芯片应用,针对需要周期唤醒的AIoT芯片,设计并实现了一款超低功耗晶体振荡器电路,并实现了综合条件下国际领先的低功耗与计时精度。
北京大学黄如院士-叶乐教授团队,提出了基于Gm-C的电流注入时间控制电路与振幅检测电路:该技术创新性地利用了Gm-C这一基础模拟电路模块,解决了电荷注入式晶体振荡器的电流注入时间与大小控制的挑战,使得基于此技术的32kHz实时时钟(RTC)电路能够在实现高精度计时的同时,在应用环境温度范围内仅消耗最多不到2nW的功耗;与此同时,由于模拟电路功耗主要取决于其偏置电流,在内置电流源的情况下,该电路较已发表的同类工作相比,实现了功耗对温度最低的敏感性。
基于上述创新理念与技术,课题组研制了一款基于22nm CMOS工艺的超低功耗32kHz晶体振荡器芯片。该电路在使用ECS-2X6X音叉型32kHz晶体下,在25˚C室温下的平均功耗仅为0.954nW,取得了已发表过的基于32kHz电流注入晶体振荡器中功耗最低的世界纪录。其在80˚C下的功耗仅为1.90nW,为低功耗晶体振荡器中的世界纪录。该晶体振荡器在长时工作下表现出了低至6ppb的Allan误差(Allan Deviation),取得了单电源晶体振荡器电路的长时稳定性世界纪录。该电路可广泛应用于面向环境应用的IoT芯片中,作为其中低功耗高精度实时时钟模块的核心。
该工作以《一款22nm CMOS工艺下利用基于Gm-C的电流注入控制电路实现的0.954nW 32kHz晶体振荡器》(A 0.954nW 32kHz Crystal Oscillator in 22nm CMOS with Gm-C-Based Current Injection Control)为题,发表于今年ISSCC,文章的第一作者是北京大学集成电路学院博士后张奕涵,文章的通讯作者为叶乐教授。
(a)电流注入型晶振结构与电路图 (b)晶振芯片显微照片
(四)超高速发送机芯片
不断增长的通信需求持续推动有线通信链路向更高的数据速率演进,目前超高速有线收发机的数据速率已达到100+Gb/s量级。为了提高频谱利用率,四电平脉冲幅度调制(PAM-4)在超高速链路中被广泛采用。然而PAM-4调制方式面临眼宽、眼高减小的挑战。
北京大学盖伟新教授团队从电路设计和均衡机制方面入手,提出了可编程宽度的脉冲发生器,依靠脉冲宽度调节驱动器增益,从而实现最快信号翻转速度,减小信号边沿在码元宽度中占据的比例,改善眼宽;提出了基于码型的预加重均衡机制,通过检测电路对待发送的信号码型实时监测,在特定信号处以注入电流的方式加强信号,消除码间干扰的同时避免输出摆幅衰减。
基于上述创新设计,课题组研制了一款基于28nmCMOS工艺的超高速有线发送机芯片,并对芯片进行了性能测试与汇报。该发送机芯片实现了高达128Gb/sPAM-4的数据速率,并且取得了1.4pJ/b的能量效率。提出的可编程宽度脉冲发生器实现了13%的眼宽增长,且没有额外的功耗代价;相比传统前馈均衡,基于码型的预加重均衡机制使得眼图张开面积提高了约25%。该电路可广泛应用于数据中心、高性能计算等高通信需求的场景,为其提供高速率、高可靠的数据传输。
该工作以《A 128Gb/s PAM-4 Transmitter with Programmable-Width Pulse Generator and Pattern-Dependent Pre-Emphasis in 28nm CMOS》为题,发表于今年ISSCC,文章的第一作者是北京大学集成电路学院博士生盛凯,文章的通讯作者是盖伟新教授。
(a)发送机架构图(b)发送机芯片显微照片
(五)超高速接收机前馈均衡器芯片
该工作面向超高速串行传输应用,针对传统判决反馈均衡器时序难以满足、前馈均衡器采样保持功耗较大的问题,设计并实现了一款超高速接收机前馈均衡器芯片,传输速率、均衡能力与能效比均为同类芯片最优水平。
北京大学盖伟新-何燕冬教授团队提出了基于延迟线与分布式抽头的前馈均衡技术:该技术利用无源延迟线在超高速场景下损耗小的天然优势,解决了对模拟信号延时的功耗与噪声较大的问题,在实现200Gb/s超高速率均衡的同时,利用分布式结构降低了抽头负载电容引入的信号反射;此外,通过在抽头放大器中采用源极RC退化技术,赋予前馈均衡器灵活的低频均衡能力,避免仅靠增加抽头数量来消除长尾码间干扰,大幅降低了电路功耗。
基于上述创新技术,课题组研制了一款基于延迟线的200Gb/s接收机前馈均衡器芯片。该芯片实现了对200Gb/s数据的均衡,可提供高达17.2dB的均衡能力,且能效比仅0.43pJ/b,均为接收机连续时间前馈均衡器的最优水平。该均衡器芯片具有高带宽、低功耗、低噪声的优势,可广泛用于数据中心、Chiplet等串行数据传输应用中,为未来短距200Gb/s接收机提供了全新的低功耗解决方案。
该工作以《一款28nm工艺下,基于延迟线技术并支持低频均衡的0.43pJ/b, 200Gb/s,5抽头接收机前馈均衡器》(A 0.43pJ/b 200Gb/s 5-Tap Delay-Line-Based Receiver FFE with Low-Frequency Equalization in 28nm CMOS)为题,发表于今年ISSCC先进有线互连技术(Session 6: Advanced Wireline Links and Techniques)分会场,文章的第一作者为北京大学集成电路学院博士生叶秉奕,文章的通讯作者为盖伟新教授。
(a) 接收机前馈均衡器架构图(b)均衡器芯片显微照片
(六)高能效模数转换器芯片
面向语音识别、智慧医疗等多种物联网应用,针对其对中等带宽信号实现高精度、高能效采集的需求,本工作实现了一种在性能上国际领先且易于驱动和系统集成的增量型缩放式模数转换器,相比于其他同类型的缩放式模数转换器设计取得了最高的带宽和最低的驱动需求。
本工作在缩放式模数转换器的架构和电路方面提出了新的设计方法:在架构方面,首次采用噪声整形逐次逼近型量化器进行缩放式模数转换器中的细量化,并提出了一次采样多次量化的量化方法,大幅降低了对采样电路的要求,提升了系统的带宽;在电路方面,提出了一种新型的环路滤波器电路设计方法,该方法仅需要一个动态缓冲器即可实现高阶、高鲁棒性的环路滤波器,显著降低了系统硬件开销和功耗。
基于上述创新技术,课题组研制了一款基于28nm CMOS工艺的增量型缩放式模数转换器芯片。该款芯片一次模数转换仅需要8次采样,在低频2.5kHz和中频20kHz的输入信号下分别达到了92.5dB和92.2dB的信噪失真比,系统功耗为160μW,在同类的缩放式模数转换器中具有最高的输入带宽(150kHz),且易于驱动,单次转换所需的输入驱动开销最小,整个系统达到了国际领先的模数转换器能效水平(182.2dB FoM)。该电路可广泛应用于多种物联网应用场景,并且为如缩放式模数转换器的多步模数转换器提供了新的实现和量化方法。
该工作以《A 150kHz-BW 15-ENOB Incremental Zoom ADC with Skipped Sampling and Single Buffer Embedded Noise-Shaping SAR Quantizer》为题,发表于今年ISSCC,文章的第一作者是北京大学集成电路学院博士生王宗楠,文章的通讯作者是唐希源研究员。
(a) 缩放式模数转换器电路及原理图(b)缩放式模数转换器芯片显微照片
以上论文的相关研究工作得到了国家重点研发计划、国家自然科学基金、北京市科委、浙江省重点研发计划等项目的资助,以及国家集成电路产教融合创新平台、微纳电子器件与集成技术全国重点实验室、微电子器件与电路教育部重点实验室、集成电路高精尖创新中心、集成电路科学与未来技术北京实验室等基地平台和浙江省北大信息技术高等研究院、杭州微纳核芯电子科技有限公司的支持。
ISSCC会议背景介绍:
ISSCC会议每年2月中旬在美国旧金山召开,是国际公认的规模最大、领域内最权威、水平最高的芯片设计领域学术会议,被业界誉为“芯片设计国际奥林匹克会议”,每年约有200项芯片实测成果入选,约四成的芯片成果来自于国际芯片巨头公司,例如:英特尔、三星、台积电、AMD、英伟达、高通、博通、ADI、TI、联发科等,其余六成左右的芯片成果来自于高校和科研院所;历史上入选ISSCC的成果代表着当年度全球领先水平,展现出芯片技术和产业的发展趋势,多项“芯片领域里程碑式发明”在ISSCC首次披露,如:世界上第一个集成模拟放大器芯片(1968年)、第一个8位微处理器芯片(1974年)和32位微处理器芯片(1981年)、第一个1Gb内存DRAM芯片(1995年)、第一个多核处理器芯片(2005年)等。