时空数据挖掘通常是指对移动对象的历史轨迹进行挖掘或者预测。简单地说,时空轨迹数据是来自不同感知设备的许多采样记录。目前可利用的数据形式主要包括城市车辆通行数据(道路监控)、传感器搜集的数据(手机和基站的通信)、出租车轨迹数据(GPS采样)。除了这些从物理世界获得的轨迹数据以外,近年来随着基于位置的社交网络的推广,还产生了大量带有时空标签的文本评论,很多研究就是利用这些网络世界的定位数据进行的轨迹挖掘。
时空轨迹数据的理解和建模为学习人们的移动模式提供了新的角度,也是极具潜力的城市规划与智慧城市管理的辅助工具。比如,通过轨迹数据中的模式挖掘可以帮助了解城市出行群体的通勤时空规律,为解决交通拥堵、改善交通服务提供了新的机遇。因此,时空轨迹数据分析在学术界和工业界得到了大量的研究,并成为数据挖掘领域的一个重要新兴分支,其中包括了时空轨迹挖掘中的微观应用(如位置预测、轨迹深度理解和路径规划)和宏观应用(如交通状况预测和城市计算)。
1. 位置预测
常见的位置预测包括下一个位置预测、终点预测以及兴趣点推荐。
(1)下一个位置预测。是在已知对象经过了若干个位置的前提下,预测对象将要到达的下一个位置。有人基于马尔科夫模型提出了一个位置预测器(A Next Location Predictor with Markov Modeling,NLPMM)。该预测器在进行位置预测的同时,还考虑集体移动模式、个人移动模式以及时间因素。有人通过进一步考虑用户间的相似性以及轨迹间的相似性来提高位置预测器的性能。
(2)终点预测。是在已知对象通过了若干个位置的前提下,预测对象最终要到达的位置。有人基于隐马尔科夫模型利用历史GPS记录以及当前位置,预测用户的一段新轨迹的终点。
(3)兴趣点推荐。是将用户没去过的兴趣点推荐给用户。有人基于协同过滤提出了一种兴趣点推荐的框架。该模型在计算候选兴趣点的推荐分数的同时,还考虑了用户偏好、社交影响力以及空间位置影响力。有人尝试通过考虑时间信息来增强基于用户的协同过滤,并且提出了一种时间相关的协同过滤推荐模型来向用户推荐兴趣点。
2. 轨迹深度理解
位置预测是基于轨迹信息来挖掘用户显式的移动模式,近年来也出现了一些挖掘时空轨迹中隐含信息的工作。文献181利用概率主题模型(LDA)从签到数据中发现地理主题,将用户签到记录中的位置点当作单词,其位置点形成的一条轨迹当作文档。有人基于word2vec提出一种新的深度表示模型,来为轨迹中的时间位置序列训练特征向量,进而发现用户隐含的移动模式。有人提出了概率模型W4(Who+Where+When+What),利用包含位置信息、发布时间以及用户编号的短文本来发现个人移动模式。除了时空轨迹数据,他们还利用带有位置的文本信息来帮助理解用户移动模式。
3. 路径规划
路径规划关注的是整条轨迹,即在给定起点和终点的前提下,为用户推荐一条合理的路径,包括最短通行时间路径、最短通行距离路径以及最低油耗(碳排放)路径。还有一些工作在此基础上进步考虑了限制条件,例如路径需要通过给定的位置点(如推荐景点游览路线)或者在给定的时间范围内通过某个位置点(如景点游览路线中到达饭店的时间是中午)。
4. 交通状况预测
除了上述应用外,还有一些应用是从宏观层面来挖掘的,例如交通状况预测。交通状况预测主要关注流量和拥堵检测。流量预测是指基于某区域的历史流量来预测未来一段时间内的流量变化。有人提出了一种新的移动平均方法来预测未来一段时间的卡口流量。该模型在对某一卡口进行预测的同时,还考虑了卡口自身以及相似卡口的历史流量模式。拥堵检测是通过轨迹数据分析来理解道路交通状况以及拥堵演化模式。有人首先将城市划分为统一大小的网格,然后计算车辆在某一时间段内到达的网格数量,最后通过统计发现网格数量变化的异常行为,并基于此来推断交通的异常情况。
5. 城市计算
为了更深入全面地理解我们的城市,微软亚洲研究院郑宇博士整合了轨迹数据和其他数据(如气象数据、环境数据)。通过分析城市不同区域的社会功能、热度特征,提出了一个数据驱动框架,以发现城市中不同的功能区(如商业区、教育区)。有人利用车辆的GPS轨迹来推断城市路网中某一时间段内车辆的汽油消耗量和污染物排放量。有人提出了利用稀疏监测站的环境数据和历史空气质量数据,来估计任意位置的实时空气质量以及确定建立新监测站的最优位置。
领取专属 10元无门槛券
私享最新 技术干货