• 果壳说
2794
需用时 05:35
汽车和边缘AI算力急速提升,安谋科技自研NPU阵容再次扩充

随着智能汽车产业和边缘计算的蓬勃发展,需要AI处理的图像分辨率越来越高,而其中,中国市场尤为强劲。TrendForce数据显示,2021年中国汽车市场占全球市场份额的23.7%,到2018年,这一数值升至29.6%,而到2022年,中国汽车市场占比达到了全球的33.1%。

从720P 到 4K分辨率,从单路图像到多路图像融合分析,汽车和边缘应用对AI算力的需求正成倍提升。近期,安谋科技推出自研新一代人工智能处理器“周易”X2 NPU,在大幅提升算力的同时,还针对车载、边缘计算等特定场景进行了专门优化,进一步提升这些场景下的计算效率。

面向汽车和边缘市场的大升级

根据安谋科技执行副总裁、产品研发负责人刘澍的介绍,“周易”X2 NPU 是新一代人工智能处理器,它基于第三代“周易”架构,提供更高的算力,支持多核cluster, 最高可达 320 TOPS子系统。兼顾更高的精度和灵活性,多种数据精度融合计算。

“周易”X2 NPU 针对ADAS、智能座舱、平板电脑、台式机和手机等应用场景做了大量性能优化,例如大幅提升手机拍照、录像中的高分辨率图像处理能力,以及车载中常用的 Transformer 等应用的性能,同时采用 i-Tiling 技术大幅减少带宽需求。

目前,“周易”X2 NPU已在成熟阶段,现可正式交付客户,并且今年会有多款搭载“周易”X2 NPU的芯片产品面世。

“周易”X2 NPU瞄准两个市场:

一是汽车市场,中国有强劲的汽车发展动力,同时在过去的几年中,中国涌现出了许多本土智能汽车品牌,安谋科技看到了产业升级和新老格局的交替有重大的联系,回看过去手机行业发展,在2000年前后基本由国外厂商主宰,从功能机到智能机升级的过程中,市场又涌现了大批新品牌、新势力,完成了对传统手机品牌的替代和超越,安谋科技认为智能汽车行业可能也会重现这样的格局,过去汽车市场被欧美、日本品牌所垄断,未来中国市场和中国品牌势必在产业占有一席之地,希望到2030年,安谋科技能够实现支持中国自动驾驶成熟量产方案的落地。

二是边缘计算市场,“周易”NPU能够在诸如手机、PC、平板电脑等应用场景,对视觉、多媒体处理提供很好的性能支撑,同时边缘侧设备也可以达到很好的功耗和带宽平衡。

“周易”X2 NPU相比以前的产品,是全方位的升级,据安谋科技产品总监杨磊介绍,共有8个主要看点:

  • 支持更大的算力,可以支持到支持 10~320TOPS 子系统的算力,相比“周易”X1和Z系列单核解决方案,周易X2采用了多核集群(Cluster),为了发挥多核优势,TSM 任务分拆和管理技术专门负责多核或多计算单元实时任务调度,充分发挥各个计算单元效能;
  • 支持更好的i-Tiling的技术方案,数据一般从片外的存储设备中来读取,这个数据通道像高速公路一样有流量的限制,其次流量越大方案成本越高,i-Tiling技术就能大幅减少带宽需求,进一步提升计算效率,从而大幅降低系统的成本;
  • 实时任务调度,实时性对汽车来说是十分重要的诉求,比如说要判断前方的目标,必须30毫秒做出响应,这就是一个很强的实时响应的要求;
  • 支持了混合精度计算,“周易”Z系列X1处理都是基于定点的方案,也就是int8整型方案来做的NPU,好处是兼顾了计算性能和密度,也就是整体芯片的成本,现在因为在汽车领域对准确度要求更高,所以在这一代支持 int4/int8/int12/int16/int32, fp16/bf16/fp32多精度融合计算,这样就能很好地平衡功耗、计算算力密度以及计算精度;
  • 优化的Transformer性能,Transformer是一个在汽车领域很常见的AI的模型,大量被汽车领域所采用,“周易”X2 NPU有基于图像的Transformer,也有基于分割检测的Transformer等;
  • 增加了无损的权重压缩的技术,为了进一步节省对高速公路上的流量的需求,比如说正常用10车道,用无损压缩之后只需要8车道就可以把原来的任务逐步地完成;
  • 升级低功耗技术,可以做到7nm工艺节点上达到10TOP/W的能效;
  • 面向手持设备进行专门优化,比如说拍照里面AI去噪声,包括视频超分辨率、插帧等上继续专门优化。

Benchmark数据显示,“周易”X2 SoC与其他旗舰SoC对比来看,在精度方面能匹配国际旗舰SoC,此外,在MobileNet、UNET、YOLO等典型网络,对比竞品旗舰SoC有明显的性能优势,且上述性能均基于相似的MAC配置,体现在移动端的性能优势。

在汽车领域Benchmark比较中,周易X2 SoC对比国际通用SoC,MAC数量是相似的,都是@4096mac,相比国际通用SoC,最多可以高达260%的优势。

背后蕴含许多黑科技

“周易”NPU不光是产品在向前演进,架构也在不断发展。“周易”X1 NPU产品主要是基于的V1、V2架构,更多是用在AIoT领域,周易X2 NPU是安谋科技第一款基于V3架构的NPU,算力有大幅提升,能够支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合计算,计算效率与计算密度也得到了显著提升。未来安谋科技将推动针对新兴领域的高性能子系统开发,希望把“周易”推向更多大算力的领域,不断地发展。

该架构的设计思路遵循并行和可扩展性。根据安谋科技NPU研发高级总监孙锦鸿介绍,对比起“周易”v1、v2架构,v3架构上更强调并行性和可扩展性。整个“周易”NPU的设计核心思想在指令还有数据处理单元的同构计算里做到了最大并行。在异构上,安谋科技会把数据的Channel和Batch,甚至异构算子做成并行,在同构和异构的单元里得到统一。在此基础上扩展核和Cluster,通过不同颗粒度的并行性来体现到整个周易架构的强扩展性。虽然周易v3架构的扩展维度很多样,但都可以通过统一的OpenCL界面把不同扩展性的计算单元,不同的核通过统一的编程方式进行统一编程,提供较好用户体验。

需要强调的是,“周易”X2 NPU基于v3架构,指令集也是安谋科技周易NPU团队自己定义的,在整个v3架构的指令集中,定义了超过1000个专门针对不同场景的指令,这些指令也是基于VLIW结构,由长指令和短指令构成,并且可以支持64bit和128bit的指令包,做到统一的指令集组合。

在运算单元里,“周易”X2 NPU需要很多AI固定功能的加速,安谋科技提供了很高效的4K MAC矩阵,适用于CNN、RNN、Transformer等结构。其次还提供了很多可重置的结构单元,以适配很多新算子,因为很多AI功能背后的模型或算子更新是日新月异,这些可重置的结构单元就给“周易”NPU提供了很多的可扩展性和适应性。

灵活单元层面,安谋科技做了很多针对AI标量、矢量的指令,这些指令可以通过OpenCL实现很好的编程体验。每个基础单元可以做到1024bit/cycle的数据处理,它的数据带宽可以根据1024bit做到较为有效的拓展。同时在此处,也加入了矩阵浮点运算,每一个时钟可以支持128MACs的操作,并基于FP16的运算。

杨磊强调,“周易”NPU不仅仅只是提供硬件的NPU IP,还会提供上层一整套完整的“周易” Compass软件平台,这个平台中包括了模型编译器,还包括了完整的调试器,不仅可以分析和判断运行中是否有一些异常和错误,还可以调试性能。完整的人工智能软件方案,使开发者可以方便、快速地进行算法移植和调试。

“周易”Compass软件平台现已支持上百种AI算子或是AI层,也支持上百种AI模型,同时,“周易”Compass软件平台不单单可以把NPU性能充分发挥出来,也有更加通用的Arm CPU、GPU、ISP、VPU、SPU IP单元等,提供一套完整的异构计算解决方案。目前周易已支持TVM以及Arm NN的两套异构计算平台,能够将SoC芯片中的CPU、GPU、NPU IP的性能协同发挥出来。

对一款NPU产品来说,不光是硬件IP方面的不断迭代,在生态建设上也要倾注很大的心血。对IP本身,安谋科技会推出像工具、软件、服务等支持,帮助客户更好地使用和成长。

另一方面,为了配合生态的完善和繁荣,安谋科技也推出了“周易”开源软件计划和生态伙伴计划,把工具、系统设置、架构更多地开放出去,让合作伙伴免费地参与到其中,同时可以围绕客户的芯片打造出千百种应用和算法。

举个简单的例子来讲,一个池塘,池塘里大鱼吃小鱼,小鱼吃虾,虾吃水草,植物可能还要靠鱼的粪便作为自己的养料,这样才能构成一个生态系统。所以生态不单单是一个环节来构成的,它其实是一个很大的循环的结构。把NPU或者说AI比作一个生态系统也是很合适的。

当然,“周易”是安谋科技自研产品矩阵中的非常重要的产品系列,在周易之外,安谋科科技始终坚持“本土创新、全球标准”,不断地推出像星辰CPU、山海SPU以及玲珑ISP和VPU,构成自研产品矩阵,使得安谋科技自研IP和Arm IP形成了更好的优势互补,希望通过这样的方式更好地满足中国客户和合作伙伴的需求,充分发挥本土资源的能力,支撑产业的繁荣与发展。

过去几年里,周易系列产品应用已从过去的AIoT领域,发展到到现在的汽车、边缘智能终端等领域,未来会向更高性能的云侧和服务侧进行发展。安谋科技希望周易系列产品可涵盖在不同的应用场景中,通过不同的配置,可以有很小的NPU、也会有很大的NPU与系统相结合。

文/付斌

The End

举报这篇文章

果壳说

果壳作者

pic