\mathcal{L}=\mathcal{L}_{f}+\alpha \mathcal{L}_{b}+\beta\left(\mathcal{L}_{\text {pesu }}^{\text {con }}+\mathcal{L}_{p e s u}^{\text {tre }}\right)+\rho \mathcal{L}_{\mathrm{HSIC}}+\gamma \mathcal{L}_{r e c}+\lambda\|W\|_{2}
\mathcal{L}_{p s e u}^{c o n}=\frac{1}{\sum_{i=1}^{N} \mathbb{I}\left(t_{i}=0\right)}\left\|\left(\mathrm{Y}^{F}-\tilde{\mathrm{Y}}_{s p c}^{c o n}\right) \cdot \operatorname{diag}(1-\mathrm{T})\right\|_{2}^{2} \text {, }
另一方面的输出,是将表征Z送入后续的模块进行拼接和预测。
2.2 干预子空间
和对照子空间同理,干预子空间也是采用干预组的数据进行相应的学习,同样可以构建类似的损失函数。
\mathcal{L}_{p s e u}^{tre}=\frac{1}{\sum_{i=1}^{N} \mathbb{I}\left(t_{i}=0\right)}\left\|\left(\mathrm{Y}^{F}-\tilde{\mathrm{Y}}_{s p c}^{tre}\right) \cdot \operatorname{diag}(\mathrm{T})\right\|_{2}^{2} \text {, }