谷歌街景照片的另一种用途:预测总统大选结果
作者:陶郁 来源:政见
俗话说:“人靠衣装马靠鞍”。可见,穿戴装束和出行座驾等显而易见的外在特征,常会提供判断他人社会地位和风格品味的信息。最近,来自斯坦福大学等美国高校的一组研究人员,把这种“以貌取人”的技术玩到了一个新高度,只不过他们的分析单位是社区而非个人。按照这些研究者通过分析谷歌街景照片得出的结论,下次你在正常时间段沿着一座美国城市的道路开行15分钟,如果看到的三厢轿车数量多于皮卡,那么民主党候选人有近九成概率在总统大选中拿下此地。
美国是一个生活在汽车轮子上的国家。统计数据显示,超过九成美国家庭拥有至少一辆汽车。而美国人对汽车的选择,往往是综合考虑家庭需要、个人偏好和经济能力的结果,这其中蕴含着丰富的经济社会信息。利用“深度学习”(deep learning)技术,研究者们为计算机练就出了一副从谷歌街景照片中抓取和识别汽车信息的火眼金睛。他们指出,通过让学会了识别技术的计算机分析谷歌街景照片上汽车的品牌、型号和出厂年份等信息,不用前往现场打听,就能判断出某个美国社区的收入、种族、教育和投票偏好等重要特征。
为了展开分析,研究者们收集了谷歌街景项目在200个美国城市中所拍摄的五千万幅照片,其中包含约两千二百万辆汽车的图像,覆盖了这些城市中近三分之一的汽车。利用“深度学习”技术,研究者们训练计算机对这些汽车的品牌、型号、出厂年份、外形门类和排量等特征做出判断,并将谷歌街景照片上的每辆汽车归置到2657个互不重叠的组别当中。这些组别几乎覆盖了1990年以来所有在美国街道上行驶过的汽车。
基于上述信息,研究者们系统分析了车辆情况与美国社区人口、经济与政治特征之间的联系。统计结果显示,“车如其人”这种说法,的确颇有实证根基。例如,与许多人的印象一致,亚裔居民比例较高的美国社区,本田和丰田等亚洲品牌的汽车比例也较高。克莱斯勒、别克和通用旗下的奥兹莫尔比等品牌的汽车,更多地出现在非裔美国人社区中。而皮卡和大众、阿斯顿马丁等品牌汽车云集的社区,其居民则往往以白人为主。
不仅如此,车辆特征还可以帮助我们识别美国社区的其他许多情况。例如,在坚定的民主党选区,三厢轿车是无可撼动的主流车型;而在坚定的共和党选区,街上的主流车型则往往是各类皮卡。通过与美国人口调查局旗下“美国社区调查”(American Community Survey)项目所收集的数据进行比对,研究者们发现,利用各种汽车特征识别某个社区平均水平和教育程度,准确程度也相当令人满意。
与在大规模抽样基础上通过问卷或访谈收集数据的传统调研方式相比,使用汽车特征来判断社区基本情况,至少具有四个显著优势。首先,这种新的调查方法主要依赖电脑进行计算、分析和判断,可以大大节省人工、提高效率。通过“深度学习”,研究者们开发的电脑程序只需0.2秒时间就能在2657个组别中为谷歌街景照片上的汽车找到最合适的归宿,项目组仅用两周就完成了对全部五千万张照片的识别工作。即便某位超常聪慧的专家能在10秒钟内将一辆汽车准确归入2657个组别中的某一组,他不吃不喝地连续工作,也无法在15年内完成这项任务。
由此带来的另外两个好处,在于节约经费和提高数据的时效性。上文提到的“美国社区调查”是美国联邦政府的一个国家级项目,采用入户询问的方式采集关于美国社区的各类人口结构信息,每年需要花费十亿美元,而实际情况发生的变化可能需要长达五年时间才能在数据中显示出来。采用基于汽车信息的新研究方法,一个研究团队依靠自己的力量就能获得质量比较可靠的类似数据;而随着无人驾驶技术的普及,包含汽车信息的街景照片将会越来越频繁地更新——目前,特拉斯汽车每天所拍摄的照片数量,就可高达五千万张。
更为重要的是,人们在回答问题时,可能对自己的收入状况、教育水平和政治偏好进行有意无意的伪装,而对汽车的选择是难以伪装的。因此,采用汽车特征这类稳定的外在信息对社区基本情况进行判断,受到干扰的可能性往往更低。
需要指出,“户均一车”是美国的特征,而汽车对于其他国家民众的意义或许与对美国人的意义并不相同;因此,这套通过车辆特征识别社区情况的方法,未必可以直接推广到美国之外。然而,这套方法背后那种利用大数据中结构化信息识别区域特征的思路,却能够为学术研究者和政策制定者提供许多启发。
当然,如果你不想活得这么较真儿,下次和小伙伴们在电脑前科学浏览美国城市的谷歌街景照片时,能够在默默数完皮卡后以老司机般的淡定娴熟悠悠说出此地是否曾被特朗普拿下,想必也是极好的。
参考文献
Gebru, Timnit, et al. “Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US.” arXiv:1702.06683 (2017).
来源时间:2017/3/12 发布时间:2017/3/9
旧文章ID:12710