Nature:新型人工智能芯片大幅提升能效,边缘物联网时代即将到来?
如今,各类智能设备,例如智能手表,眼镜,家电等已经遍布我们生活的各个角落。然而这些设备通常只有在联网时才会展现出它们“智能”的一面。近年来,“边缘计算”技术试图让这些设备在不依赖互联网的情况下仍然可以保持智能。这就要求它们所搭载的芯片本身具有处理人工智能(AI)任务的能力。
这些小型设备所搭载的电池电量十分有限,往往不足以处理复杂的AI任务。因此,提高AI芯片的能效变得至关重要。在传统的芯片里,数据的计算和存储通常在两个独立的单元进行。研究发现在这样的芯片中,绝大多数的能量并非用于AI计算,而是消耗在计算和存储单元之间频繁的数据移动中。
斯坦福大学,加州大学圣地亚哥分校,以及清华大学合作研究团队提出了一个新的解决方案。该团队于2022年8月18日,在Nature发表题为“A compute-in-memory chip based on resistive random-access memory”的论文。
文章描述了一款名为“NeuRRAM”的AI芯片。这款芯片采用了基于阻变存储器(RRAM)的“存算一体”架构来减少数据流动。它在支持多种人工智能应用的同时,大幅提升了能效,使得在边缘设备中实现复杂的人工智能任务成为可能。
网页截图
“传统AI芯片中的数据处理过程,就好比你一天只需工作两小时,却要花八个小时在来去公司的路上。”万伟尔 (Weier Wan) 博士这样类比到。万伟尔博士是该文章的第一作者,近期毕业于斯坦福大学。博士期间由斯坦福大学 菲利普·王 (H.-S. Philip Wong) 教授与加州大学圣地亚哥分校格特·考文伯格 (Gert Cauwenberghs) 教授共同指导。
不同于传统芯片,这款NeuRRAM芯片所采用的 “存算一体”架构直接在存储器内进行AI计算,这就好比直接在仓库中对原材料进行加工生产,而不必频繁地把原材料运往专门的加工车间,极大地减少了数据流动,从而大幅提升了芯片的能效。
NeuRRAM芯片 | David Baillot / University of California San Diego
NeuRRAM芯片使用的阻变存储器是一种新型的非易失性存储技术。这种技术具有高密度,非易失,易加工等优点,是低功耗,低成本的边缘计算场景的理想选择。
在阻变存储器中实现存算一体并不是一个全新的概念,相关的研究已经进行了很多年。然而在过去的存算一体工作中,AI模型推理的结果通常是由部分的软件仿真获得。而此篇文章中的AI模型结果均是在NeuRRAM芯片上实测获得。这是该领域发展的一个重要里程碑。
除了更高的能效,NeuRRAM也是首个支持多种神经网络模型的多核存算一体芯片。因此,NeuRRAM可以被应用到多类边缘计算任务中,例如图像分类,图像去噪,关键词识别。在这些不同应用中,NeuRRAM均可实现和传统数字芯片相当的AI推理准确度。
“在很多情况下,存算一体的高能效是以牺牲灵活性和准确性为代价的,” 万伟尔博士介绍,“然而这三者对于存算一体芯片的广泛应用都至关重要,因此在NeuRRAM中,我们希望可以三者兼具。”
高效而不失灵活
和传统的数字芯片不同,存算一体的芯片通常在模拟域中进行高效的AI运算。然而由于模拟信号容易受到噪声干扰,模拟计算的结果最终需要被转化为数字信号来和系统中其余模块进行通信。NeuRRAM芯片集成了48个存算核,核内采用模拟计算,而核外采用数字信号通信。
研究发现,在存算一体芯片中,模拟数字转换器通常会成为计算能效的瓶颈。过往绝大多数的存算芯片采用基于电流的模数转换方式。这样的设计有高功耗,低计算并行度等问题。NeuRRAM采用了一种全新的基于电压的模数转换设计。与过去的阻变存储器存算芯片相比, 这种设计使得NeuRRAM的能效提高至过去的芯片的1.6~2.3倍,计算密度提高至7~13倍。
在实现高能效的同时,NeuRRAM也兼顾了灵活性。以往的存算一体芯片只支持单向推导的神经网络结构,例如卷积神经网络(CNN)。NeuRRAM实现了一种名为Transposable Neurosynaptic Array (TNSA) 的架构,使其可以同时支持多种数据流向的神经网络,例如循环神经网络(RNN)以及受限玻尔兹曼机(RBM)。不同于传统的存算芯片,TNSA架构将基于阻变存储器的神经网络权重和基于CMOS的模数转换器以及激活函数分布式地交错在一起,从而在不需要重新编程阻变存储器的情况下完成不同数据流向的计算。
全栈式软硬件协同优化
在AI芯片设计中,高能效,灵活性以及准确性都是非常重要的指标。单方面地优化芯片设计中的某一环节往往可以提高其中的一项指标,但也时常伴随着其余指标的下降。想同时兼顾三者,全栈式的软硬件协同优化必不可少。
对于基于阻变存储器的存算一体芯片,一个不可避免的问题是模拟计算带来的各种非理想性,比如非线性和可变性。这些非理想性会极大地降低AI模型的准确性。单纯在架构,电路和器件上的优化往往不足以解决这个问题。万伟尔博士所在团队提出了一系列AI算法和硬件协同优化的策略,来克服这些非理想性。
研究团队测量了不同AI应用在NeuRRAM芯片上的表现,包扩图像分类,语音关键词识别,以及图像去噪。结果显示在所有测量的应用上,NeuRRAM均可实现和同计算精度的数字芯片相当的AI模型推理准确性。值得注意的是,所有的结果均是在芯片内实测获得。相比而言,以往存算一体工作中部分基于软件仿真推算的结果往往难以准确地涵盖芯片中所有的非理想性,因此给出过于乐观的预测。
“贯穿芯片软硬件设计的全栈式优化正是NeuRRAM的精髓所在。这得益于来自于世界各地不同院校的全栈式团队。”万伟尔博士介绍。为了这个项目,万伟尔博士在过去几年间来回于斯坦福大学,加州大学圣地亚哥分校,清华大学的研究组,在此过程中向不同的研究者们学习了不同领域的知识。
产业化前景
国内外多家初创公司已经进入了存算一体芯片产业化的进程。这些芯片多是基于传统的存储技术例如静态随机存取存储器(SRAM)和闪存(Flash)。作为首颗实测了多个AI应用的存算一体芯片,NeuRRAM吹响了基于阻变存储器的存算一体芯片产业化的号角。那么它距离产业化还有多远呢?
“NeuRRAM还不是一颗产品级芯片,但是它验证了全栈式优化对于该技术产业化的重要性。” 万伟尔博士介绍道。“存算一体的产品化需要结合很多因素,不仅仅是继续升级迭代芯片的设计,同样重要的是找准最合适的应用场景,即所谓的‘killer app’”。
(编者注:杀手级应用程序(killer app)是计算机行业中的一个行话,它指的是一个有意或无意地使你决定购买它所运行的整个系统的应用程序)
“在制造方面,如今国内外多家晶元代工厂逐渐拥有了量产阻变存储器的能力,并正将阻变存储器向更先进的制程推进。在设计方面,进一步的软硬件协同优化是必不可少的。芯片的设计将不仅仅停留在优化单个存算核的能效上,同样重要的是如何实现高效且灵活的多核互连,如何构架一颗数字模拟混合的完整AI芯片,以及如何为存算芯片优化AI模型结构。这些都将成为存算一体芯片产业化道路上重要的课题。”
若能够成功产业化,该技术拥有广泛的应用前景。它可以被用于增强现实中,让如今笨重的虚拟现实头盔变得如同“钢铁侠”佩戴的眼镜一般智能又不失时尚;它可以成为盲人的眼睛,指引他们在城市街道中安全地行走;它也可以被用于工业和农业生产中,嵌入在成百上千个器械里,实时地检测和调整器械的运行;它可以让生产生活变得更加高效便捷,让更多人享受到人工智能技术的福利。
参考文献
Wan, W., Kubendran, R., Schaefer, C. et al. A compute-in-memory chip based on resistive random-access memory. Nature 608, 504–512 (2022). https://doi.org/10.1038/s41586-022-04992-8
作者:团队供稿
编辑:牛奶
排版:嘉琪
题图来源:见正文
研究团队
通讯作者/第一作者 Weier Wan
通讯作者 Bin Gao
通讯作者 Siddharth Joshi
通讯作者 Huaqiang Wu
通讯作者 H.-S. Philip Wong
通讯作者 Gert Cauwenberghs
论文信息
发布期刊 Nature
发布时间 2022年8月17日
论文标题A compute-in-memory chip based on resistive random-access memory
(DOI:https://doi.org/10.1038/s41586-022-04992-8)
未来光锥加速器是果壳硬科技发起的早期科技创业加速器,为科学家创业提供从公司注册、知识产权,到融资需求、团队组建等不同阶段的方案建议。加速科技成果从实验室到市场的转化,加速一部分科学家迭代成为CEO。
果壳团队有着长达12年为科学家服务的经验,我们始终站在科学家的视角出谋划策,做科创者的好朋友。如果您正打算创办一家科技企业,无论是找钱、找人、找资源,还是找订单,都欢迎与未来光锥团队聊聊。您可发送bp或其他项目资料到wlgz@guokr.com,并留下联系方式,或添加果壳硬科技企业微信,私信沟通。
✦
✦
点击阅读原文即可查看原论文