5月17日下午14时,由北京大学集成电路学院、集成电路高精尖创新中心、北京大学国家集成电路产教融合创新平台、集成电路科学与未来技术北京实验室、后摩尔时代微纳电子学科创新引智基地、北京大学校友会半导体分会联合主办的“未名·芯”论坛系列讲座第二十二期在线上线下成功举办。本期邀请到Villanova University的焦珣助理教授为大家带来主题为“Robust Computing Against Unreliable Hardware”的报告。讲座由集成电路学院贾天宇助理教授主持。
焦教授首先用一个简单的例子来引出了硬件错误发生的不同原因以及在工业上硬件本身存在不可靠性的现实背景,这样的现实需求就催生了在不可靠硬件上提高计算鲁棒性的研究。焦教授从神经网络的模型层面、评估错误对计算结果可能造成的影响和如何减轻错误影响三个维度介绍鲁棒计算的工作。
首先是在模型层面上可以应用一些本身就不要求绝对的精确度的模型,比如利用超维计算的模型以及图神经网络。这些模型本身就具有一些容错性并且适合应用近似计算,在图神经网络中可以利用图结构这一特性,在某一点与其周围的邻域信息产生明显不匹配时判断该点出现错误,从而进行刨除、替换、更改等操作以提高计算鲁棒性。
接着,焦教授介绍了Terrorch这个错误注入评估工具。在开发这个库时,为了能让Terrorch更快更好的发挥作用,针对用户友好,简单高效和灵活易用这三个特点进行了专门的优化。因此,Terrorch相对于其他的错误注入工具而言,它仅需要以来pytorch这一常用的库,并且在使用上也与pytorch中封装的工具类似,大大降低了使用门槛。
最后焦教授介绍了现有的减轻错误影响的几类方法,分别是错误发生后纠正错误,预防错误产生以及提高计算时的容错能力这三方面。但是现有的在硬件上提高冗余或者增加额外设计的方式不够灵活,所以在软件算法上提高容错性就成为了更加高效受欢迎的选择。
在报告的最后,大家就超维计算的原理,按照概率注入比特翻转和实际硬件出现错误的比特翻转的差距以及是否会增大硬件工作的动态功耗等问题进行了深入的交流。
个人简介:
Xun Jiao is an assistant professor in ECE department of Villanova University. He has been a visiting scientist of Meta. He obtained his Ph.D. degree from UC San Diego in 2018, and obtained the joint bachelor’s degree from the Queen Mary University of London and Beijing University of Posts and Telecommunications in 2013. His research interests include robust and efficient computing, AI/machine learning, brain-inspired computing, and embedded systems. He received 6 paper awards/nominations in international conferences such as DATE, EMSOFT, DSD, and SELSE. He published 55 papers in international conferences and journals. He is an associate editor of IEEE Trans on CAD, a lead guest editor of Frontiers in Neuroscience, a TPC member of DAC, ICCAD, ASP-DAC, GLSVLSI, LCTES. His research is sponsored by NSF, NIH, and L3Harris. He has delivered an invited presentation at U.S. Congressional House. He is the recipient of 2022 IEEE “Young Engineer of the Year Award” (Philadelphia Section).