下载看水印
其中,NNN是样本对的个数。然后,在一个固定的阈值τ\tauτ下,限制正样本对之间的相似性应该超越所有其他负样本对之间的相似性。
L=∑i=1N∑j=1,i≠1Nmax{simi,j−simi,i+τ,0}L = \sum_{i=1}^{N} \sum_{j = 1, i \neq 1}^{N} max\left\{ {sim}_{i,j} - {sim}_{i,i} + \tau, 0 \right\}L=∑i=1N∑j=1,i=1Nmax{simi,j−simi,i+τ,0}
其中,simi,i{sim}_{i,i}simi,i表示正样本对的相似度,simi,j{sim}_{i,j}simi,j表示负样本对的相似度。
3.2.2 方法2-二阶段训练
与图像编码器直接提取的全局图像特征相比,从食材检测模型中提取的局部特征包含了特定的食材语义信息,为跨模态食材检索提供了更有利的初始化状态。为了利用这一优势,我们首先使用食材检测模型提取ZZZ个区域特征。然后,我们提出了一个自适应式池化策略来自动融合多区域特征和多食材特征。
在这种情况下,假设我们可以访问样本对中的ZZZ个区域特征和OOO个食材。对于食材编码器来说,我们使用与端到端训练阶段相同的分层Transformer编码器来获取食材组成的原始特征。值得注意的是,我们没有使用平均池化来融合食材特征,从而保留了KKK个食材特征{fing1,...,fingO}∈RO×d\left\{ f_{ing_1}, ..., f_{ing_O} \right\} \in R^{O \times d}{fing1,...,fingO}∈RO×d。关于区域特征处理,我们使用了一个具有两个隐藏层的多层感知机对区域特征进行编码:
fregionz=BN(W2∗BN(W1∗fregionz))f^z_{region} = BN(W_2 * BN(W_1 * f^z_{region}))fregionz=BN(W2∗BN(W1∗fregionz))
其中,fregionzf^z_{region}fregionz是第zzz个区域的特征,W1W_1W1和W2W_2W2是可学习的映射矩阵,BNBNBN是批归一化。
受Chen等人[53]的启发,我们使用序列模型BiGRU学习池化系数θ\thetaθ,自适应地融合多区域特征和多食材特征。特别地,给定ZZZ个区域的原始特征{fregionz}z=1Z\left\{f^z_{region}\right\}^Z_{z=1}{fregionz}z=1Z和fregionz={ez1,...,ezd}f^z_{region} = \left\{ e_z^1, ..., e_z^d \right\}fregionz={ez1,...,ezd},我们的目标是通过使用长度ZZZ的系数来衡量图像的原始区域特征,从而获得图像fM={ω1,...,ωd}∈Rdf_M = \left\{ \omega_1, ..., \omega_d \right\} \in R^dfM={ω1,...,ωd}∈Rd的整体嵌入:
ωi=∑z=1Zθz⋅maxz({ezi}z=1Z),where∑z=1Zθz=1\omega_i = \sum^Z_{z=1} \theta_z \cdot {max}_z (\left\{ e^i_z\right\}^Z_{z=1}), where \sum^Z_{z=1} \theta_z = 1ωi=∑z=1Zθz⋅maxz({ezi}z=1Z),where∑z=1Zθz=1
领取专属 10元无门槛券
私享最新 技术干货