You Are What You Drive.
在解决商业问题和社会问题方面,人工智能结合大数据已经被证明是一种极其高效的研究方法。
最近,斯坦福大学视觉研究室在《美国科学院院报》上发表了一份人工智能在人口统计学中应用的论文。研究人员通过算法分析了 5000 万张 Google 街景中的汽车信息,以此来了解相应社区以及城市的政治、经济情况。
You Are What You Drive 是杰伊·兰姆在十年前出版的畅销书。斯坦福大学的这项研究似乎论证了兰姆起的这个书名。研究结论之一就是,作为汽车保有量最大的国家,美国人对于汽车的选择和他们的政治倾向高度一致。
这项研究由斯坦福视觉研究室负责人李飞飞领导,她同时也是 Google 人工智能与机器学习的首席科学家。研究选择了美国 200 个人口最密集的城市,通过建立人工智能算法来识别和判断在 5000 万张 Google 街景中出现车辆的信息。
为了提高算法判断的准确性,斯坦福大学从 Edmunds.com 等汽车销售网站中获取了 1.5 万辆汽车的细节照片,建立了从 1990 年开始销售的所有车型数据库。
“收集和标注车辆的微小差别是我们在研究中最痛苦的环节,” 这份研究论文的第一作者 Gebru 称“谁能知道 2007 年和 2008 年的本田雅阁之间的差异只是后尾灯上几乎不可察觉的变化。”
但数据库建立之后,人工智能算法仅花费了两周的时间就完成了对 5000 万张图像中的 22 万辆汽车按照品牌、型号和年份的分类工作。如果只让一个人来分类,需要花费 15 年才能完成。
建立数据库后,算法开始识别车辆信息
李飞飞及团队用整理好的数据与当前最全面的人口数据库、美国社区调查和总统选举投票数据进行了比较,发现了汽车、人口统计学和政治倾向之间存在着简单的线性关系。
例如,如果一个社区的轿车数量远大于皮卡的数量,那么该地区有 88% 的可能性会投票给民主党。如果皮卡的数量大于轿车,则该选区投票给共和党的可能性是 82%。
这套系统还“预测”了 2008 年总统选举中美国怀俄明州的卡斯珀市应该会是共和党获得选区选票。按照当时的竞选结果,果真如此。
研究还发现,在美国,最环保的城市是佛蒙特州,而芝加哥是贫富最悬殊的城市,昂贵的跑车和廉价车辆都拥挤在街头。纽约则成为了人均车辆价格最高的城市。
研究人员表示,这项算法可以为当前的人口统计调查提供更及时和持续的补充。美国社区调查每年要花费 2.5 亿美元来进行上门调查。但结果和实际情况之间有两年甚至更久的延迟,小城市和农村地区情况更糟。
通过公开并定时更新的 Google 街景数据,人工智能算法可以接近实时地生成分析结果,在节省调查费用的同时提高效率。
李飞飞表示:“这套计算机视觉技术系统可以帮助我们理解社会如何运作、人们需要什么,以及如何改善生活。譬如监测二氧化碳水平和缓解交通堵塞,我相信潜力将会非常巨大。”
有趣的是,早在 2015 年就有人想通过 Google 街景照片来对城市进行研究。 Reddit 网站上有人抛出了一个问题:Google 街景上你能找到的最脏乱差、最危险的街区有哪些?这一问题吸引了 3341 个回答,斯洛伐克的 Luník IX 街区成为票选最多的街区。
在那个时候,还只能通过用户自发地寻找图片来进行比较。随着人工智能和图片识别技术的发展,算法开始逐步引入对 Google 街景的分析中。
2017 年 5 月,纽约哥伦比亚大学开发了一种计算机视觉方法来测量 Google 街景中街区建筑的外观变化。发现建筑外观和社区教育以及人口密度有很直接的联系。
9 月,Google 近 8 年来对自家的街景车进行了最大的一次升级,提高画质的同时,也开始利用人工智能技术加强了对于路边商店缩写、大写的 logo 名称等信息的识别。
END
领取专属 10元无门槛券
私享最新 技术干货