• 果壳说
3137
需用时 06:16
把人脑做到芯片里,英特尔怎么看待神经拟态计算

自从算力成为电力之后又一经济指标之后,算力基建便是近几年的主基调。但计算也分为各种类型,应对不同负载。对数据中心来说,耗能巨大的计算方式难挑大梁,能量优化的方式才是破解问题的最优解。

业界将目标放到了人脑上,人脑由约850亿个神经元组成,通过一千万亿个神经突触连接在一起,每秒能够执行一亿亿次操作,但如此庞大的系统处理起日常任务的功耗只有20W。而将人脑做成芯片,便是神经拟态计算(Neuromorphic Computing)。目前来说,英特尔这项技术的产业化推进者,也一直是走在前线的引路人。

模仿人脑的好处多

神经拟态计算指的是参考生物大脑神经元结构和思考处理模式而搭建的架构,它是一种跳出传统冯·诺依曼架构的先进计算形式,据这一架构设计出来的芯片就是神经形态芯片。

英特尔中国研究院高级研究员曹露介绍,神经拟态计算和类脑计算的大概含义是较为类似的,从Neuromorphic这个词来说,Morphic意为“形变”,Neuro就是“神经元”,合成在一起的词就是“神经拟态”。 英特尔目前依然采用“神经拟态”这种命名方式来定义研究方向,“类脑”涉及的含义更为广泛,但凡是和脑搭边的,都可以用“类”这个词,形似也好,神似也好,或是结构相似,只要有任何一个特点能够与脑相似,其实就是一种“类脑”。

神经拟态计算的商业化价值在于在低功耗以及少量训练数据的条件下持续不断自我学习,并且在理想情况下,同样一个人工智能任务中,神经形态芯片的能耗较传统的CPU或GPU减少了一千倍以上。它有潜力成为现在的救世主,解决行业面前的三大问题:一是数据量级大;二是数字形态日趋多元化,很多数据已不能依靠手动编辑输入或人工处理解决,需要智能化处理;三是应用对延时要求愈加强烈,传统单一计算架构会碰到性能和功耗的瓶颈。

神经拟态计算拥有四个特点:一是借鉴人脑的结构,存算一体,采用了特别细粒度的并行,用很多的、特别微小的计算单元并行起来,解决一个大的问题;二是事件驱动,在处理问题时,不是一直在工作,而是在有事件到来的时候才开始计算、耗能,完成相应的任务,从而降低功耗;三是计算模式是低精度模式;四是有自适应性和自我修正、持续学习和改造的能力。

要强调的是,神经拟态计算区别于传统的标准计算的——如基于冯诺依曼架构的CPU或GPU架构的并行计算。首先,神经拟态计算能从小样本的数据中持续学习,可塑性强;其次,针对现在的电路架构设计而言,它是一种基于事件的异步处理方式,是基于脉冲处理形式;另外,它是并行的、稀疏的计算模式,即时有时无、无法估计发生频率的状态。

由于生物体的复杂性,目前为止,人的大脑,乃至更低等生物的大脑,还没有特别清晰的研究结果。只有从最简单的基本结构和特征开始,开启新的学习方式和计算范式。

在算法上,神经拟态计算基于脉冲神经网络SNN,不同于深度学习专用处理器的人工/深度神经网络ANN/DNN,前者是从结构层逼近生物大脑,侧重于参照人脑神经元模型及其组织结构来设计芯片结构,后者则非神经元组织结构,而是围绕成熟认知计算算法,设计芯片结构。

“相比起DNN,SNN能够展现出更好的能效比,在一些资源受限的情况下,尤其是用电池来提供能源的情况下,能耗越低,可以维持的待机时长越长,在资源受限的情况下,SNN的方式可能有更好的功能。” 曹露如是说。

曹露强调,SNN现在还没有一个公认的训练方法和框架,英特尔是从一个可以借鉴的方法来着手的:一种是从DNN转成SNN或是从DNN借鉴过来的SNN训练方法,另一种就是从神经动力场理论进行训练,基于生物时空可塑性来训练SNN。

将这一切实现成为现实,究竟如何?对英特尔来说,便是研究芯片Loihi。

英特尔的神经拟态芯片进展

2017年底,英特尔研究院推出第一代的Loihi芯片,这款芯片采用传统的CMOS半导体工艺,再结合创新的架构做的一种尝试和突破。它通过神经元核的堆叠实现,其一代产品拥有128个神经元核,每个神经元核拥有1000个神经元,整个芯片面积约为60平方毫米。

而到2021年9月,在三年多的经验积累和问题研究后,迭代出了Loihi 2。

Loihi 2最大的特点是芯片形状的差异,相比一代,Loihi 2的芯片面积从60平方毫米缩小到了31平方毫米,面积缩小却可容纳更多资源。在芯片上,单核依然保留了128个神经元核,但每个神经元核内的神经元数量由1000个提高到了8000个,整个单芯片支持的总的神经元数量由12.8万增加到了100万。除此之外,由于Loihi 2内部的片上网络带宽相较以前得到非常明显的优化,所以整体带宽有了显著的提高。

在硬件设计上,Loihi 2使用了Intel 4制程,在此制程下,密度进一步提升,尺寸更小,集成度更高;其次,其内部的的低功耗的CPU核数量相比以前是翻倍的,处理能力、分发能力都相应的提高了;另外,芯片间的连接在重新设计和优化之后,带宽得到了大幅度的提升;最后,其内部资源以前是分立的,现在是在同一个核内分享内存资源,读写和资源利用率会比以前更高。

在功能上,Loihi 2拥有三点功能更新:一是可支持广泛化的脉冲,即不仅只是2值,还可以携带一个整型的精确值,在做深度学习任务时,精度相较于Loihi一代有明显的提升;二是引入更多可编程性,可采用微码来对神经元的结构进行编程,可支持更多类型的神经元抽象,从以前的只支持带泄漏整合发放模型(LIF)到现在可以支持更多种模型,如共振发放模型、LIF++、ALIF等;三是在学习能力上引入调控因子,可以更好实现在线学习。

在扩展方向上,不再只是2D的扩展方式,而是增设了垂直维度,变为3D堆叠形式,密度可以比之前更高。虽然异步电路的设计好处多多,但和其他互联时或会存在语言不通的问题,而现在Loihi 2也可与其他的计算设备也可以通过网口直接通信。

让神经拟态计算可用

既然神经拟态计算这么强,想要推进产业化,就要让更多人能实际用起来,并深入研究。

为了让Loihi 2切实为人所用,英特尔有两手准备,一是发布开发板Kapoho Point,二是提供软件框架Lava。

基于Loihi 2的开发板Kapoho Point于2022年9月发布,其正反面各有4颗芯片,采用紧凑的堆叠的可伸缩设计,通过接插件可实现多块Kapoho Point板间直连,可利用更多的资源来做更复杂的事情。单个PCB板可达到8百万神经元,可以运行包含多达10亿个参数的AI模型,也能解决涵盖多达800万个变量的优化问题。它现在已经逐步向社区的成员开放,进行交付和实验。

光有芯片其实很难实际应用起来,软件是芯片的灵魂,神经拟态计算亦如此。Lava与Kapoho Point同期面世,它是一套模块化的、开源的、支持多平台的、可与其他软件实现互操作的软件开发框架。

Lava分层结构包括Magma,Magma的底层和硬件相关,再向上是硬件抽象层,在这一层通过引入标准的进程调度库,可将上层的库和应用映射到底层硬件之上。这一套框架不光支持神经拟态芯片,也可支持在CPU和GPU上完成神经拟态应用的模拟。

值得一提的是,Lava框架支持执行效率更高的Python、C或C++的底层代码编写,能够更友好地支持使用者,降低研究门槛。

说起来Kapoho Point、Lava和Loihi 2的关系,曹露举例表示,Kapoho Point、Lava就相当于是装好系统的笔记本,而而不是直接用一颗英特尔的CPU。

神经拟态计算的未来

“就多年研究来看,Loihi的神经拟态计算在一些应用领域有比较明显的优势。”曹露表示,一种是和近传感器结合,完成基于传感和感知相关的处理,包括进行手势识别和气味分析,都会得到比CNN或DNN更好、能效更高的结果,相关结果也均被发表在《自然》杂志上;另一种,是在做优化方面,性能能够比起基于CPU的路径有更快的速度和更好的性能;此外,在像智能机器人这样的使用场景中,它能够促进对环境的持续感知和不断学习。

HERO平台是当时为机器人研究开发的一套可配置的异构计算平台,英特尔则将这个计算平台与Loihi结合在一起,进行感知相关的实验。目前,英特尔中国研究院正在和中科院自动化所合作一个基于触觉感知的实验,用来检测机械臂操控当中和物体有没有发生滑动。

任何研究,最终的目标一定是走到产业中去。而从产业化角度来看,现在英特尔研究院做的这些成品还仅是交付于神经拟态研究社区(INRC)成员,让这些成员做前期研发或探索性的研究,没达到真正的商业化量产。包括Loihi 1和Loihi 2,也都还不是英特尔公司产品级的芯片,本质上它是一个研究芯片。

产业化一直是神经形态的难题,神经拟态计算在能效上相比现在的CPU、GPU拥有几个数量级的差异,但现在面临的问题是向上的一个挑战,即它的最佳的硬件架构和算法其实还在研究当中,还没有找到一个像2012年卷积神经网络AlexNet这样一个关键的突破,缺少一个“杀手级应用”。

因此,英特尔选择以社区的方式来驱动神经拟态计算的产业化,解决的问题包括什么样的算法是最好的、什么样的硬件设计是最合适的。从应用来驱动研究,权衡整体发展方向。

除此之外,英特尔之所以如此看好神经拟态计算,还有一个关键点——即绿色计算的概念。神经拟态计算能够节省极大能耗,也是延续英特尔现在碳中和以及绿色计算的规划,绿色计算可能会是英特尔今后一直投入前沿计算中很重要的点。虽然神经拟态计算可能只是在一个应用或是运行一个大型场景下很适用,但这个场景的应用可能会节省非常多的能源消耗,对环境或可持续发展来说也是一个很重要的事情。

文/付斌

The End

举报这篇文章

果壳说

果壳作者

pic