• 果壳说
3341
需用时 06:40
人类观察了这个世界,现在该轮到车了

科学建立在观察之上

科学,不断在拓宽我们的眼界、改变我们的生活,但可能正是因为科学给人的感觉是“万能”的,所以似乎听起来往往都是些高精尖的东西。其实还真不一定。虽然现在科学已经成为了一种解释、预测万物的知识体系,但最初的科学其实指的是对自然现象之规律的探索与总结。

比如人类的祖先发现,在地面立上一根柱子,阳光下的柱子影子会随着时间的推移而转动着改变方向,而且通过持续地观察和记录,每一天的同一时刻,柱子的影子会出现在同一个位置,日晷这一度量时间的仪器便由此诞生。

日晷的准确性尚且还可以通过日复一日的观察来验证,而节气的命名只能是年复一年观察与实践的共同结晶。例如谷雨,指的是雨水增多利于谷物生长;小满,形容夏熟作物的籽粒开始灌浆饱满,但又没完全成熟;芒种,描述麦子等有芒作物成熟……每一个都描绘了一幅大自然的图景,作为人们季节更替时安排生产活动的参考。

如此接地气的科学,恰好揭示着一个亘古未变的道理——科学建立在观察之上。而对于我们人类来说,正如日晷的投影和大自然的图景,图像是最直接的观察依据之一。就连而在现代科学里,图像依然是用来辅助科学判断的重要工具,比如我们常常吐槽去医院检查,医生一上来就让“拍片子”;就连一些本身并不是图像的生理指标,比如心脏活动,也要通过电信号转化为心电图,再由医生判断是否正常。

我们如此娴熟地依赖图像所带来的视觉信号,或许是因为人脑的结构决定了我们本就擅长处理视觉信号,在我们大脑的新皮质中,和视觉相关的区域占据了大约55%,而听觉相关的仅占3%。在这一整套视觉神经网络中,眼球将我们所看到的光信号转化为电信号,通过视神经传递到大脑的视觉皮层,进而由大脑做出判断,或是从茫茫的视觉信息中找寻出一定的规律,总结为结论。

 

道路观察是新时代汽车的必修课

正因为视觉信号给我们带来了诸多便利和进步,所以当我们需要对于人工智能进行驯化的时候,为机器安上“眼睛”就成了一条必由之路。

机器眼睛的早期形态就是室内室外随处可见的监控探头们了,他们不能移动,担当着作为一个摄像头最原始的功能——记录画面。随着硬件的升级,镜头体积越来越小而图像精度还越来越高,这时候,人们发现这些图像是可以被进一步处理而被赋予更多使命的,比如识别其中的人和物、定义画面中是否出现异常情况等等。

于是,拓宽这些摄像头的移动半径,也无异于拓宽了人的视野,所以我们能逐渐在一些移动物体上看到摄像头的身影,尤其是汽车。根据CINNO Research的数据,今年第一季度中国的乘用车平均搭载2.7颗摄像头。而以小鹏为代表的造车新势力们还更加激进,普遍标配在10颗摄像头以上,这还没有算上车载雷达。

小鹏G9的传感器分布

光堆砌摄像头不难,只要愿意花钱,车上装百八十个摄像头都是可以的。而真正难的是汽车还得学会根据所看到的画面自行进行分析和判断,这里的区别就在于“汽车看到前方有个东西”和“汽车看到前方有个东西,能理解出来是一堵墙于是自己停了下来”。和人的视觉系统一样,汽车的摄像头和雷达所组成的汽车感知单元,其实就是在构成汽车的视觉前端,而芯片及其模型就是位于后台的大脑,形成从视觉成像到感知识别这一完整链路,这一套系统也叫汽车的视觉神经网络系统。

那谁来教会汽车看到墙时需要停下来呢?人。

对于汽车的视觉要求来说,一般需要重点感知的有动态目标(包括人、车)、可通行区域、车道线和静态物等模块,所以首先是汽车能够看到红绿灯,再由工程师告诉汽车需要遵守“红灯停绿灯行”的规则。是的,即便是最简单的交通规则,也需要从零开始教给汽车。所以对于汽车的视觉训练,我们要做的是为它灌输海量的数据,为汽车形成一套可靠的判断逻辑,以便日后汽车看到红绿灯时,能够自己判断是该走还是该停。

而之所以需要海量的数据,是因为我们的现实世界过于丰富多彩,即便是普普通通的红绿灯,在不同的地方、不同的时间、不同的环境下可能模样也千奇百怪。

图片来源|抖音@hb965333

所以在训练汽车时候需要做的是帮助汽车识别尽可能多的红绿灯特征,也就是做标注。比如我们把世界上所有的红绿灯形态以及变化方式都标注出来,那么汽车就能在遭遇类似的“物体”时,就能很快地做出判断:这是一根红绿灯,要红灯停、绿灯行。以此类推,能识别红绿灯,汽车也能通过这样的方式挨个认识路上的其他物体,一套完整的环境地图就能伴随汽车在行进中不断生成,汽车便可以精确地识别到哪里有停车位、哪里是路障不可通行……

人工判断目前是最靠谱的“找特征”手段之一,正如许多标榜手工制造的,它的优势就是利用了人的知识积累和主观判断,目前已经成为了一个非常常见的职业。

图片来源|BOSS直聘网站

以及或许大家可能还不知道,谷歌浏览器时不时会弹出一些场景验证让你证明你不是机器人,比如让你从一堆照片中选出,这时的你其实就是在义务帮谷歌做数据标注!

 

授车以鱼不如授车以渔

但不难想象,任何事只要沾上“人工”,其最大的短板就往往是效率低。我们可以理解为标注后的数据对于一辆车来说就是有效的知识,一条线、一辆车、一个红绿灯……这都是知识。见得多,才能识得广。

每辆车每天行驶在车水马龙中,会和无数“知识”擦肩从而产生海量路况信息,而且随着市面上平均自动驾驶级别的提升,装载丰富感知单元的汽车增多,数据量还会越发庞大。卷如小鹏汽车这样的厂家,甚至已经不再满足于单帧的平面照片所获取的数据了,小鹏今年发布了全新一代感知架构XNet,可以将连续的视频流转化为多帧图像供深度学习,数据量再次成倍数增长。

在这样的数据规模下,靠人工标注无异于愚公移山。为此,小鹏开发了全自动标注系统,相比于人工标注,效率提升了45000倍,过去需要花费2000人一年时间完成的标注任务,现在只需要用16.7天,完全是发生了数量级的提升。

所以,这就好像一种滚雪球,通过自动标注能让汽车保持随时观察、随时学习的状态,同时又因为随时学习,导致收集了大量数据用于验证模型,模型准确度也得到了提升。所以整体来看,XNet下的汽车,感和知的能力必然都会更强。

这里提到一个概念“模型”,那“模型”又是什么?简单来讲就是一个“行为指南”。比如“红灯停绿灯行”就是一种最基础的训练模型,但我们的路况复杂程度远不止于此,需要涉及到道路上的每一种可能性。包括一些极端案例。

比如这是一个小鹏真实处理过的极端案例:一辆大卡车,它的轮子掉了,并且因为摩擦而起了火。这件事在现实生活中或许很难遇到,所以一旦发生,对于很多人来说都是一个未知风险,但是根据这一辆大卡车的遭遇,小鹏的工程师可以利用仿真引擎模拟出成千上万个类似事件,比如换做是各式各样的轮子脱落并起火的车,车本身应当用什么样的模型来应对?而当一个未知的风险变为已知,就会大大降低解决问题的成本。通过这样的方式,可以很好地降低事故率。

并且,即便是“红灯停绿灯行”,随着法规的改变也可能不是永恒的,所以模型也需要在不断的学习中得到修正。而“扶摇”就像是一座“小鹏汽车驾校”,教会如何应对每一个场景,让汽车在出厂时就已经具备了万里路的驾驶经验,而这“万里路”无疑也需要强大的算力支持。

有了算力压力,所以小鹏汽车今年夏天和阿里云共同建立了中国目前最大的自动驾驶智算中心“扶摇”,地点选在了乌兰察布,因为平均气温4摄氏度的乌兰察布正好为庞大的数据计算提供了天然的风冷。目前,“扶摇”能达到600PFLOPS的算力,曾经需要276天才能训练完成的模型,现在可以缩短到11个小时,效率提升超过600倍。

而高度自动化的产物,更需要保证结果的准确性。小鹏的做法是,在摄像头这样的视觉感知传感器作用下,二维的图像便得以三维化,甚至四维化,因为XNet还会结合时序信息,进而在四维空间中再进行更高精度的训练和推理,杜绝了“横看成岭侧成峰”的情况发生。也就是说,XNet不仅可以识别物体、监测到物体的位置和运动情况,甚至可以预测物体的未来运动轨迹。

根据小鹏的工程师所述,XNet目前基本可以实现“所见即所得”,保证图像中的目标物体可以被稳定监测。或许这也是为什么小鹏需要夸张地装载十几颗摄像头了。

所以,相比于传统的高精地图来说,XNet是基于自己的感知能力,随时随地都在优化出一个即时的“高精地图”,而传统高精地图是有一定的更新周期和覆盖范围的,眼睛和大脑存在云端;而XNet的眼睛和大脑就在车上,即便在高精地图没有覆盖的区域,也能够凭“双眼”直接识别到视野之内的各个目标。

XNet的存在,摆脱了对高精地图的依赖。这也是为什么小鹏的全新驾驶辅助系统XNGP可以在全国各地的包括停车场、城市、高速路在内的全场景下发挥作用。

总体来看,XNet此次所带来的提升,是通过多相机、多帧数据输入的方式增加了静态和动态的感知能力,在减少了对高精地图依赖的同时,也提高了自己的动态预测水平。不论是老司机还是新司机,都很容易直观感受到XNet所带来的裨益。但或许正是因为驾驶的门槛越来越低,所以对于汽车产品的要求越来越高、越来越卷,小鹏这是为汽车按上了更灵的“眼睛”,再借此成立一套属于汽车自己的科学逻辑。

同时,汽车行业发展到当前这个时间节点,无疑是给野心家创造机会的,因为智能辅助的终点明显是自动驾驶,我们现在的量产车们还远远没有达到真正的自动驾驶水平,只是在卷到底谁可以离L5更加靠近。“扶摇”8月才建成,我们不妨看小鹏再飞一会儿。

The End

举报这篇文章

果壳说

果壳作者

pic