authors:: Zhilun Zhou, Yu Liu, Jingtao Ding, Depeng Jin, Yong Li container:: Proceedings of the ACM web conference 2023 year:: 2023 DOI:: 10.1145/3543507.3583239 rating:: ⭐⭐⭐⭐ share:: true comment:: 基于LBSN构建知识图谱,分别学习全局知识和领域分层知识
WWW 2023 的一篇论文:Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-based social network
文章利用location-based social networks(LBSNs)以及知识图谱来进行社会经济指标预测,虽然任务不同,但LBSN数据集以及知识图谱的使用可以学习参考。
定义 1 (LBSN Data):LBSN数据集DLBSN\mathcal{D}_{LBSN}DLBSN由空间数据、属性数据和移动性数据等多源数据组成。具体来说,空间数据包含了空间信息,如POI的地理坐标和边界。属性数据包括POI品牌、类别和其他属性信息。移动性数据可以是移动设备或出租车旅行的移动性记录,反应LBSN用户的移动轨迹。
定义 2 (Knowledge Graph):一个知识图谱KG可以定义为G=(E,R,F)\mathcal{G}=(\mathcal{E},\mathcal{R},\mathcal{F})G=(E,R,F),分别表示实体集合,关系集合以及事实集合。每一个事实可以表示为一个三元组(h,r,t)(h,r,t)(h,r,t),其中h,r∈E,r∈Rh,r\in\mathcal{E},r\in\mathcal{R}h,r∈E,r∈R分别表示头尾实体以及连接的关系。此外,每一个实体都有一个实体类型,通过映射函数ϕ:E→A\phi:\mathcal{E}\rightarrow\mathcal{A}ϕ:E→A确定,其中A\mathcal{A}A表示预定义的实体类型集合。KG schema 描述了KG的高级结构,它显示了实体的类型和实体类型之间的关系。
定义 3 (LBSN Socioeconomic Indicator Prediction)给定LBSN数据集DLBSN\mathcal{D}_{LBSN}DLBSN以及LBSN中的地点集合SL={L1,L2,⋯ ,Ln}\mathcal{S}_L=\{L_1,L_2,\cdots,L_n\}SL={L1,L2,⋯,Ln},学习一个映射函数f:SL→VIf:\mathcal{S_L}\rightarrow\mathcal{V_I}f:SL→VI,其中VI\mathcal{V_I}VI是社会经济指标的价值集合I∈II\in\mathcal{I}I∈I,即,预测LBSN中各个地点的社会经济指标的价值。这里I\mathcal{I}I指的是一组社会经济指标,它们衡量一个地区的社会经济情况,如人口、收入水平、教育水平等。
LBSN社会经济指标预测方法是位置表示学习,其旨在学习用于地点的低维嵌入向量。有效嵌入可以表征位置的各种属性,以帮助预测社会经济指标。例如,在工作日早上具有大量流出移动性和傍晚具有大量流入移动性的地点可能是城市中的住宅区,这表明由基于位置设备生成的移动性流数据可以反映地点功能。
现有工作不足:
论文提出了一种基于知识图谱的分层学习框架来解决LBSN中异构数据建模的挑战。
论文将与社会经济指标相关的LBSN知识(即空间知识、功能知识、移动性知识和商业知识)纳入LBKG中。
对于每个位置,论文选择最近的位置,并计算它们之间的距离以及人口差异(以对数尺度测量)。论文使用关系 “BorderBy” 将共享同一边界部分的位置链接起来, “NearBy” 关系将距离小于阈值的位置链接起来。BorderBy 和 _NearBy_描述了不同尺度下位置之间的邻近性知识,进一步丰富了空间知识。
为了评估功能和社会经济指标之间的相关性,论文计算位置之间的功能相似度,即POI类别分布的余弦相似度。将每个POI作为实体并使用 “LocateAt” 关系将其链接到所在位置。使用 “CoCheckin” 关系描述POIs之间的地理影响。添加POI类别作为实体,并使用 “CateOf” 关系将每个POI与其所属类别链接。此外,计算每对位置的功能相似度,并使用 “SimilarFunc” 关系将每个位置与最相似的k个位置链接。
通过聚合移动数据,得到了每两个位置之间的流动量,论文发现具有大型流动转换的地点往往具有较小的人口差异。具体而言,对于每个位置LLL,根据位置LLL的流出量选择流出量最大的前kkk个位置,并以关系 “LargeFlowTo” 将LLL与这些地点连接。同样地,根据以LLL为目标地点的移动入流量选择前kkk个位置,并以关系"LargeFlowFrom" 连接。
考虑到商业知识在LBSN中与地点的社会经济地位相关,论文将商业区域实体作为LBKG中的核心活动区域,并通过 “ProvideService” 和 “BelongTo” 关系分别将其与位置和POI相连。此外,具有相同品牌且空间接近的POI之间通过关系 “Competitive” 进行链接以模拟它们之间的竞争关系。
为了从LBKG中提取全局知识,在实验中,论文采用了R-GCN模型[2]作为编码器,具体来说,实体eie_iei在第(l+1)(l+1)(l+1)层的聚合可以表示为:
ei(l+1)=σ(∑r∈R∑j∈NirWr(l)ej(l)+W0(l)ei(l))\mathbf{e}_i^{(l+1)} = \sigma(\sum_{r\in\mathcal{R}}\sum_{j\in\mathcal{N}_i^r} W_r^{(l)}\mathbf{e}_j^{(l)} + W_0^{(l)}\mathbf{e}_i^{(l)}) ei(l+1)=σ(r∈R∑j∈Nir∑Wr(l)ej(l)+W0(l)ei(l))
其中ei(l)\mathbf{e}_i^{(l)}ei(l)表示实体eie_iei在R-GCN第lll层的嵌入表示,Nir\mathcal{N}_i^rNir表示与实体eie_iei通过关系rrr相关联的实体集合,Wr(l),W0(l)W_r^{(l)}, W_0^{(l)}Wr(l),W0(l)为可学习参数矩阵。
不同的知识需要在不同层次上考虑,因为功能相似的位置可能在地理上相距很远。因此,LBKG提取了几个子图来捕捉LBSN中的领域知识。
由于不同的知识可能对社会经济指标的预测有不同的贡献,论文进一步采用了知识融合模块[3]来自适应地融合知识。具体来说,{G1,G2,⋯ ,GM}\{G_1,G_2,\cdots,G_M\}{G1,G2,⋯,GM}表示sub-KGs集合,计算每个子kg的重要性为:
wGk=1∣SL∣∑j∈SLq⊤tanh(WejGk+b)w_{G_k} = \frac{1}{\vert\mathcal{S_L}\vert} \sum_{j\in\mathcal{S_L}} q^\top \tanh(W\mathbf{e}_j^{G_k} + b) wGk=∣SL∣1j∈SL∑q⊤tanh(WejGk+b)
其中SL\mathcal{S_L}SL为地点集合,ejGk\mathbf{e}_j^{G_k}ejGk表示地点LjL_jLj在子图sub-KG GkG_kGk的嵌入表示,qqq为注意力向量。每个子图的权重通过下式计算:
βGk=exp(wGk)∑j=1Mexp(wGj)\beta^{G_k} = \frac{\exp(w_{G_k})}{\sum_{j=1}^M \exp(w_{G_j})} βGk=∑j=1Mexp(wGj)exp(wGk)
最后进行子图融合:
ejsub=∑j=1MβGkejGk\mathbf{e}_j^{sub} = \sum_{j=1}^M \beta^{G_k}\mathbf{e}_j^{G_k} ejsub=j=1∑MβGkejGk
为更好地保留知识图谱中的语义知识和位置相似性,论文设计了知识图谱补全损失来捕捉高层次的KG事实可信度,并使用位置损失来保持低层次的位置相似性。
为了更好地学习LBKG中的全局知识,在使用全局知识编码器后,使用评分函数 DistMult 来计算LBKG中每个三元组(h,r,t)(h,r,t)(h,r,t)的合理性:
ϕ(h,r,t)=(eh⊙er)⊤et\phi(h,r,t) = (\mathbf{e}_h\odot\mathbf{e}_r)^\top \mathbf{e}_t ϕ(h,r,t)=(eh⊙er)⊤et
修改之后的交叉熵损失函数如下:
LKG=∑(h,r,t)∈F−logexp(ϕ(h,r,t))∑t′∈Eexp(ϕ(h,r,t′))\mathcal{L}_{KG} = \sum_{(h,r,t)\in\mathcal{F}} -\log\frac{\exp(\phi(h,r,t))}{\sum_{t'\in\mathcal{E}}\exp(\phi(h,r,t'))} LKG=(h,r,t)∈F∑−log∑t′∈Eexp(ϕ(h,r,t′))exp(ϕ(h,r,t))
此外,论文也设计了位置损失来捕获位置的相似性。论文首先将全局知识和领域知识进行融合efuse=eKG+esub\mathbf{e}^{fuse} = \mathbf{e}^{KG} + \mathbf{e}^{sub}efuse=eKG+esub,并计算概率分布:
p^(Lj∣Li)=exp(eifuse⊤ejfuse)∑k=1nexp(eifuse⊤ekfuse)\hat{p}(L_j \vert L_i) = \frac{\exp({\mathbf{e}_i^{fuse}}^\top\mathbf{e}_j^{fuse})}{\sum_{k=1}^n \exp({\mathbf{e}_i^{fuse}}^\top\mathbf{e}_k^{fuse})} p^(Lj∣Li)=∑k=1nexp(eifuse⊤ekfuse)exp(eifuse⊤ejfuse)
对数损失函数如下:
Lloc=∑(Li,Lj)∈M−logp^(Lj∣Li)\mathcal{L}_{loc} = \sum_{(L_i,L_j)\in\mathcal{M}} -\log \hat{p}(L_j \vert L_i) Lloc=(Li,Lj)∈M∑−logp^(Lj∣Li)
最后的损失函数为:
L=λLKG+(1−λ)Lloc\mathcal{L} = \lambda\mathcal{L}_{KG} + (1-\lambda)\mathcal{L}_{loc} L=λLKG+(1−λ)Lloc
其中λ\lambdaλ为超参数。
论文得到了位置嵌入eKG\mathbf{e}^{KG}eKG和esub\mathbf{e}^{sub}esub进行连接,并将其输入回归模型进行社会经济指标预测。
论文主要采用知识图谱来学习LBSN知识,并分别学习全局知识和领域分层知识。主体的模型采用了R-GCN,聚合模型本身并没有进行什么创新。论文主要的亮点还是对于LBSN数据的处理以及知识图片的构建,还有就是领域分层知识的提取。