人工智能算法(Artificial Intelligence Algorithms)能让无人汽车主动识别道路指示牌、行人车辆、道路标线等视觉信息,使用这些信息自动行驶。不过我们换个角度,如果汽车是被识别的对象,会得到什么有趣的结果呢?
谷歌街景(Google Street View)让你坐在家里就能漫步于城市,拍摄用的街景车差不多是一个头顶安装了360度相机的汽车。有些人用谷歌街景旅行,有人用它规划假期路线,有人做了“猜街景”的游戏。而斯坦福的AI工程师则尝试用它预测美国的投票情况。
Google 街景车,图片来源:Pixabay
美国人拥有私家车的比例很高,除了可以用来判断主人的富裕情况外,汽车也能判断一个人的政治观点和投票倾向。比如,买轿车的人倾向于投票给民主党,而买皮卡的人倾向于投票给共和党。
街景车理所当然得能拍到许多道路上的汽车,要是和上面的常识结合,是不是能预测一个城市或者一个镇子的投票倾向呢?比如,按照上面的例子推演,如果一个镇子的轿车比皮卡多,那这里的人给民主党投票的概率会很高,反过来得到另一种结论,逻辑简单清楚。
谷歌街景:旧金山居民区,图片版权:谷歌街景
具体如何操作呢?以下是这个实验的菜谱:
- 准备15,000 张不同车型不同角度的照片,人工分类和标注制造商、车型、生产日期、驾车人的投票倾向;
- 准备谷歌街景的照片,200 个不同城市,共50,000,000 张;
- 让AI算法自动将街景照片对应到已经分类好的车型上,这个算法的原理和无人汽车识别道路指示牌的原理是一样的;
- 统计识别出来的车型数据,对应到不同的城市,得出结果。
我们看到这样的方法将本来只能用于个体的知识,扩展(Scaling)到更大范围的群体。
如何判断这种方法的效果呢?因为从来没有先前的经验,所以只能跟以前的数据比较,找出相关性。美国有个专门的机构,名叫美国社区调查(American Community Survey, ACS),会对这样的问题做全国调研。通过对比ACS的调查数据和总统选举投票的情况,新方法和老的统计数据有强相关性,这间接证明了新方法的有效性。
那是否能用新方法替代老方法呢?
现有的人口调查方法有两个问题:
- 需要花高昂的成本,比如美国社区调查这样的项目,每年要花掉2.5亿美金,还需要大量工作人员登门走访;
- 获得结果的周期很长,有时甚至需要几年的时间(大多数时间用在路上了吧,我猜),所以呢,调查完了,社会状况也已经改变了。
新的方法是否能弥补这些问题呢?
- 新方法直接使用网上公开的数据,谷歌街景是免费的,AI算法也有现成的,这篇论文也能免费下载到;
- 人工标注那些汽车可能比较花时间,但标注完可以重复利用,也不会要几个月的时间才能完成这个任务。人工智能算法可以说是秒出结果,而且即便搞错了,重来的成本也很低;
还有其他因素需要考虑么?有的。
走访调查不能排除掉个人偏见导致的统计偏差。比如被调查者不愿公开自己的情况或者说谎;调查者无法到治安差的地方做登门调查。这些因素应该被考虑进去。但是仔细想想,即便考虑到这些问题,如何测量,如何量化呢?本来就没办法统计到,必然也没办法放到统计公式里面计算。而且这类问题是所有问卷调查共有的,并不只是人口统计才会遇到。很多网络调查已经从问卷调查转变成监控用户行为了,当然这种方法应该获得用户同意。
但新方法也有明显的缺点。单单依靠一个人开什么车就判断它的政治倾向也太武断了吧!因为这样的原因,新方法不应该直接替代旧方法,不过它有继续挖掘的潜力。
虽然论文的正式发表时间是2017年11月28日,但是作者早在2017年2月就将预印本发表在网上了,所以还有两个疑问等待解答:
- 是否已经有政府部门考虑使用这一技术了?效果如何呢?
- 是否有类似的技术被开发出来呢?
本文作者将关注接下来的发展。(编辑:Steed)
参考文献
- An artificial intelligence algorithm developed by Stanford researchers can determine a neighborhood’s political leanings by its cars, Stanford News
- Geo Guessr, 猜街景游戏
- Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States, Timnit Gebru, doi: 10.1073/pnas.1700035114