现如今,随着手机拍照功能升级,手机已能够胜任大部分场景的拍摄任务了,甚至逐渐形成手机摄影圈。但不得不承认的是,手机拍照依然存在一些缺点。
譬如说,当我们按下手机摄像头的拍照按键,它可以拍摄出某个瞬间的照片,但它无法记录汽车快速转动的车轮、快速经过的自行车手、甚至是路上行人摆动的胳膊等,这些信息可能都会是模糊的,因为普通的图像传感器没有办法清晰记录这些动态的信息。
不过,想象一下,当我们使用人眼注视这些场景时,却能够很清晰地看到这些信息。本质上,我们现在拍摄的照片,是基于人们消费需求而优化静态图像,它记录的是静态信息,而人眼则可识别各种动态信息。
人类大脑可以说是自然界最伟大的造物,当我们把人类识别图像的过程塞到手机中,市场将会发生天翻地覆的变化。
给手机装进一个大脑
实际上,人眼不会像相机一样看到一张张的图像或者照片,而是在大脑中持续不断地处理看到的信息,并且以一种非常高效的方式处理这样的过程,比现今社会上任何计算机都先进。
从原理上来看,人眼中的感光细胞,只有在检测到视觉场景的某些特征(如对比度或亮度)发生变化时,才会向大脑报告。
受人眼视觉原理的启发,我们也可以让手机变得和人一样。
早在20世纪80年代后期,加州理工学院的 Carver Mead 教授就曾提出有关神经拟态的技术。彼时,Carver Mead教授和他的学生的初衷主要是想更好地了解生物运作方式,包括我们大脑运作方式、眼睛运作方式。
现在,随着神经拟态技术的成熟,模仿人类视觉已不再是科幻电影里的情节,这就是神经拟态视觉(neuromorphic vision)技术。
简而言之,神经拟态视觉就是尝试模仿人眼视觉原理,通过在每个像素中嵌入模拟电路,模拟眼睛视网膜中的视杆细胞、视锥细胞和其他细胞的生物学功能,开发出一种“硅视网膜(silicon retina)”。
当然,对芯片来说,可不只是多了一个大脑的事,在嵌入式、边缘智能产品中,神经拟态视觉技术可以拥有更高的性能,实现更大的价值,同时消耗更少的功耗。
通过这样的技术,既能解决当今成像和机器视觉数据处理中的许多瓶颈,创造新的机会,还能为机器学习(ML)提供全新的解决方法。此外,神经拟态视觉传感器的高动态范围和场景的对数采样特性,使得许多计算机视觉算法更强大。
当前,计算机视觉正面临户外照明不可控的挑战,一些实验室条件下表现良好的算法,在日光照射下表现可能会差很多或错过隐藏在阴影中的细节。这种情况下,神经拟态视觉传感器对光照变化的灵敏度,意味着它的感知性能在低光、强光或非常高动态范围的场景中都不会有太大变化。
Prophesee就是一家专注神经拟态技术在视觉方面的应用的公司,它们将这种方法也称为“事件视觉(event-based vision)”或 Metavision,就像把眼睛和大脑塞入传感器一样,赋予越来越多应用更多想象力。
“有脑子”又有什么不同?
诚然,神经拟态视觉技术足够先进,但只有真正能够改变生活方式的技术才是好技术,Prophesee也给出了自己的答案——手机影像、AR/VR、汽车以及机器学习。
手机影像方面,Prophesee的功能是照片去模糊(deblur)。想象一下,当我们使用手机拍摄运动物体时,尤其在光线不足的情况或环境中,拍摄对象边缘都会发生模糊。原因在于普通手机摄像头会在固定时间节点拍摄图像,也就是“固定帧率”。
简单解释,当我们按下相机快门的一瞬间,传感器开始进光,之后快门关闭。这段曝光时间内,如果拍摄对象发生移动,譬如手部挥动、或头部移动,那么拍出来的照片就会模糊,这是传统摄像头普遍存在的问题。
Prophesee的视觉传感技术就能很好地解决这个问题,它只记录动态的“事件”信息,通过将它与普通图像传感器相结合,可以在很短曝光时间内更精确地感知运动中的拍摄对象,从而帮助校正最终照片中的动作模糊。
不止如此,今后这些传感器还能实现超慢速动作拍摄、改进人像摄影模式、类似绿幕效果的背景提取以及其它一些艺术摄影效果等功能。
AR/VR方面,Prophesee主要关注难点和痛点是眼球追踪问题,如果想要实现完全沉浸式的体验,就需要尽可能降低延迟,保证现实世界中体验和虚拟世界体验是一致的。比如说,AR/VR游戏时,只有现实世界移动身体与游戏角色同步,且没有延迟,才能真正体会到AR/VR游戏的乐趣。
对眼球追踪来说,眼睛移动速度非常迅速,所以需要非常高速的摄像头来跟踪眼睛移动。但传统摄像头普遍基于帧(图像),只有高帧率摄像头才可能实现追踪眼球,但相反的,如果帧率过高的话,不仅拍摄产生的数据非常多,能耗也会非常高,数据处理时间也会随之延长。
Prophesee的神经拟态视觉技术只针对变化信息,只追踪移动物体本身,追踪过程产生的数据量就不会那么多,能够实现非常高速的追踪,减少数据处理的能耗,进一步降低延迟。就比如,Foveated渲染(foveated rendering)依赖眼球追踪,如果可以实现更精准的眼球追踪,渲染效率也会更高。
此外,内向外追踪技术(inside-out tracking)可借助Prophesee神经拟态视觉技术,实现精准检测目标对象轮廓,并进行高速追踪,且几乎不受光线条件影响,从更好地帮助我们与空间交互和互动,从而提升AR/VR设备的沉浸式体验感。
汽车方面,Prophesee专注于两方面应用研究,一是监控驾驶员在座舱内行为,另一个是驾驶辅助方面的应用。
在监控座舱行为方面,重点是监测司机开车时他/她的注意力或睡意,这方面Prophesee的技术价值可以得到很好体现,它可以监控非常快速的动作,比如眨眼的频率、眨眼的速度、目光注视的方向等,这些信息能够在一定程度上反映出驾驶员健康状况。
在辅助驾驶方面,Prophesee的技术可以帮助检测汽车前方障碍物,特别在光线昏暗环境下,Prophesee的传感器具有更高的动态范围,能够在低光或强光环境下更准确地探测障碍物,从而帮助提高行车安全性。特别在近距离情况下,Prophesee的技术可以减少障碍物检测的延迟,从而能够更加迅速及时地做出反应。
需要强调的是,神经拟态视觉技术还能够以一种更具前瞻性的方式,解决新兴的人工智能和计算机视觉挑战,如机器学习(ML)。
随着人工智能技术进一步发展,如今机器学习领域数据量日益增长,这对能源和环境而言都是不容忽视。对此Prophesee认为,传统基于图像的感知技术或许能够满足人们最初的消费需求,如制作电影,但并不能满足当今人工智能对高效机器视觉的需求。
一方面,由于传统图像传感器基于固定的时间节点记录信息(图像),譬如每秒24帧、30帧、60帧或者更高的速度,但每帧图像之间会存在空隙,机器没有办法“看到”这些空隙之间发生了什么。另一方面,每帧图像会有大量重复且意义不大的静态背景信息,机器处理这些信息也会需要消耗大量的功率。因此机器需要高效的方式来处理真正有价值的动态变化的信息。
可以说,当传感器也有大脑以后,任何我们之前不敢想象的东西,都会更容易实现,包括智能座舱、XR、医疗、安防、物联网和可穿戴设备等。
我们什么时候能用上这项技术
神经拟态视觉技术作为看得更远的技术,无论是在技术难度上,还是在推动力上,都更为需要商业化的需求。
实际上,Prophesee最早的应用在医疗领域,用来帮助视力受损盲人恢复视力,因为这项技术初衷是在开发模拟人眼的人工模型,帮助视网膜功能受损盲人恢复视力。某种程度上,这也是创立Prophesee的灵感来源之一。
Prophesee的第一代产品主要用于两家公司,一家是Pixium Vision,一家是GenSight,这两家公司都使用了Prophesee的芯片开发医疗设备,帮助视障人士和盲人恢复视力,取得了不错的实验成果。
医疗领域是Prophesee的神经拟态视觉技术走向商业化的第一步,现阶段,Prophesee会把业务重心更多地放在工业和消费电子领域。
工业领域,Prophesee已实现商业化,包括一些物体计数、表面检测、生产线流水线质量监测的机器视觉应用。
手机领域,Prophesee正与高通合作,助力手机影像质量突破新高,目标是在2024年可以实现量产。此外在XR等消费电子领域我们也看到了越来越多的市场需求。
值得一提的是,Prophesee正与时识科技构建类脑(neuromorphic)处理器,这与Prophesee的视觉传感器是互补的,简单来说,就是将他“大脑”与“眼睛”结合起来,实现一种非常低功耗和非常低延迟的传感和处理、也是“眼睛和大脑”结合的完整解决方案。时识科技在类脑智能处理领域深耕多年,结合Prophesee在神经拟态视觉传感方面的丰富经验,未来会进一步撬动更多商业化场景落地。
为了让更多人认识到这项技术的优势,并让这项技术实现更多想象力。Prophesee一直致力于打造生态社区,让更多人能够用这项的技术创造更多的可能。现在已经有接近8000位发明者和创造家加入生态社区,将神经拟态视觉技术应用到更多的领域,从细胞疗法到太空态势感知(SSA)以及机器人技术等。
不仅如此,Prophesee一直非常重视中国市场,也是业务拓展重点,一直在投资不断扩大中国市场的业务布局。此外,Prophesee还与时识科技、芯鼎、森云智能等中国领先科技企业建立合作伙伴关系。。
当商业化的车轮转动起来,神经拟态视觉技术便不再遥远,而这或许只是两三年的时间。
文/付斌