首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

有没有一种方法可以建立一个模型,在将被屏蔽的数据提供给另一个网络之前,创建一个掩码来丢弃某些输入?

在处理敏感数据时,确保数据的隐私和安全是非常重要的。为了实现这一目标,可以使用数据掩码(Data Masking)技术来隐藏或替换掉数据中的敏感信息。以下是一些基础概念、优势、类型、应用场景以及可能遇到的问题和解决方案:

基础概念

数据掩码是一种安全技术,用于在不改变底层数据结构的情况下,通过替换、加密或删除敏感数据来保护数据的隐私。掩码后的数据可以用于开发、测试、培训等非生产环境,而不会泄露真实的敏感信息。

优势

  1. 隐私保护:防止敏感数据泄露。
  2. 合规性:满足数据保护法规和标准的要求。
  3. 灵活性:可以根据需要选择不同的掩码方法。
  4. 安全性:即使数据被非法访问,也无法获取真实信息。

类型

  1. 静态数据掩码(SDM):在生产环境之外创建数据的副本,并在副本上进行掩码处理。
  2. 动态数据掩码(DDM):在数据访问时实时进行掩码处理,不影响生产环境的数据。
  3. 基于角色的数据掩码:根据用户的角色和权限来决定哪些数据需要被掩码。

应用场景

  • 开发和测试:在开发和测试环境中使用掩码后的数据,避免使用真实敏感数据。
  • 数据共享:在不同部门或系统之间共享数据时,保护敏感信息。
  • 合规性审计:满足数据保护法规的要求,进行合规性审计。

可能遇到的问题及解决方案

  1. 性能问题:动态数据掩码可能会影响系统性能。
    • 解决方案:优化掩码算法,使用高性能硬件,或者在生产环境之外进行掩码处理。
  • 数据一致性:确保掩码后的数据在不同环境中保持一致。
    • 解决方案:使用统一的数据掩码工具和流程,定期进行数据验证。
  • 误操作风险:掩码过程中可能会出现误操作,导致数据丢失或泄露。
    • 解决方案:实施严格的权限管理和审计机制,确保只有授权人员才能进行掩码操作。

示例代码

以下是一个简单的Python示例,展示如何使用静态数据掩码来替换敏感信息:

代码语言:txt
复制
import random

def mask_data(data, columns_to_mask):
    masked_data = data.copy()
    for column in columns_to_mask:
        if column in masked_data.columns:
            masked_data[column] = masked_data[column].apply(lambda x: '****' if isinstance(x, str) else random.randint(1000, 9999))
    return masked_data

# 示例数据
import pandas as pd
data = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'SSN': ['123-45-6789', '987-65-4321', '555-55-5555'],
    'Age': [25, 30, 35]
})

# 需要掩码的列
columns_to_mask = ['SSN']

# 掩码处理
masked_data = mask_data(data, columns_to_mask)
print(masked_data)

参考链接

通过上述方法和工具,可以有效地创建掩码来丢弃某些输入,从而保护敏感数据的安全和隐私。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

清华&UCLA提出token的动态稀疏化采样,降低inference时的计算量

如上图所示,CNN模型通常利用结构化降采样策略来构建层次架构,如(a)所示。(b)中的非结构化和数据依赖的降采样方法可以更好地利用输入数据的稀疏性。...预测模块负责生成删除/保留token的概率。token稀疏化通过在整个网络的某些位置分层执行。...例如,给定一个12层Transformer,作者可以在第4、第7和第9个block之前进行token稀疏化。在训练过程中,由于注意力mask策略,预测模块和主干网络可以进行端到端的优化。...因此,作者结合局部和全局特征,获得局部-全局embedding,并将它们提供给另一个MLP,以预测删除/保留token的概率: 其中,π,表示丢弃第i个token的概率,π,是保留它的概率。...在推理阶段,DynamicViT可以通过逐步修剪66%的输入token来大大提高效率,而不同Transformer主干网络的精度下降小于0.5%。

1.4K40

Shreya Gherani:BERT庖丁解牛(Neo Yan翻译)

较高层为了适应这种漂移,将被迫降低学习速度。在对神经网络中的输入进行归一化之后,我们可以不用担心输入特征会发生畸变。...少量批处理数据可以是多维的矩阵或张量-一个轴表示批次,另一个表示特征维度。批归一化使整个批处理维度的输入特性规范化。层归一化的主要特点是它能对各特征之间的输入进行规范化。...Mask表示一个掩码,它遮盖某些值(),使其在参数更新时不会起作用。Transformer模型中有两种掩码-填充掩码(padding mask)和顺序掩码(sequence mask)。...具体来说,我们在一个较短的序列之后填充零。当然,如果输入序列太长,将截取左侧有意义的内容,多余的内容将被直接丢弃。...填充掩码加上序列掩码构成了注意力掩码,在其他情况下,注意力掩码就是填充掩码。 另一个要注意的细节是,解码器会将输入右移。

1.1K10
  • DNN、CNN和RNN的12种主要dropout方法的数学和视觉解释

    某些神经元的共适应和高预测能力可以用不同的正则化方法来调节。其中最常用的一种是Dropout。但是,大多数情况下很少使用Dropout的全部功能。...我们可以乘以存在的概率。但这不是L. Wan等人提出的方法。有趣的是,即使在测试阶段,他们也可以通过应用DropConnect的高斯近似来提出一种随机的丢弃方法。然后通过从该高斯表示中随机抽取样本。...通过在每次迭代中使所有神经元保持活动状态来随机加权其预测能力,从而模拟了Dropout现象。该方法的另一个实用优势集中于1:在测试阶段,与没有Dropout的模型相比,无需进行任何修改。...Moon等人提出的RNNDrop 。是最简单的方法。伯努利遮罩仅应用于隐藏的单元状态。但是此掩码在序列之间彼此相同。这称为Dropout的按顺序采样。这仅表示在每次迭代中我们都会创建一个随机掩码。...Dropout方法还可以提供模型不确定性的指标。 对于相同的输入,遇到缺失的模型在每次迭代中将具有不同的体系结构。这导致输出差异。如果网络相当笼统,并且共同适应受到限制,那么预测将分布在整个模型中。

    1.4K10

    计算机网络基础知识总结

    1、网络层次划分 为了使不同计算机厂家生产的计算机能够相互通信,以便在更大的范围内建立计算机网络,国际标准化组织(ISO)在1978年提出了“开放系统互联参考模型”,即著名的OSI/RM模型(Open...6)表示层 表示层对上层数据或信息进行变换以保证一个主机应用层信息可以被另一个主机的应用程序理解。表示层的数据转换包括数据的加密、压缩、格式转换等。...但创建更多的子网时,在每个子网上的可用主机地址数目会比原先减少。 什么是子网掩码? 子网掩码是标志两个IP地址是否同属于一个子网的,也是32位二进制地址,其每一个为1代表该位是网络位,为0代表主机位。...下面总结一下有关子网掩码和网络划分常见的面试考题: 1)利用子网数来计算 在求子网掩码之前必须先搞清楚要划分的子网数目,以及每个子网内的所需主机数目。...在只有两次“握手”的情形下,假设Client想跟Server建立连接,但是却因为中途连接请求的数据报丢失了,故Client端不得不重新发送一遍;这个时候Server端仅收到一个连接请求,因此可以正常的建立连接

    1.1K10

    计算机网络基础知识总结 转

    网络层次划分   为了使不同计算机厂家生产的计算机能够相互通信,以便在更大的范围内建立计算机网络,国际标准化组织(ISO)在1978年提出了“开放系统互联参考模型”,即著名的OSI/RM模型(Open...6)表示层   表示层对上层数据或信息进行变换以保证一个主机应用层信息可以被另一个主机的应用程序理解。表示层的数据转换包括数据的加密、压缩、格式转换等。...但创建更多的子网时,在每个子网上的可用主机地址数目会比原先减少。 什么是子网掩码?   ...下面总结一下有关子网掩码和网络划分常见的面试考题:   1)利用子网数来计算   在求子网掩码之前必须先搞清楚要划分的子网数目,以及每个子网内的所需主机数目。   ...在只有两次“握手”的情形下,假设Client想跟Server建立连接,但是却因为中途连接请求的数据报丢失了,故Client端不得不重新发送一遍;这个时候Server端仅收到一个连接请求,因此可以正常的建立连接

    60110

    为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南

    可以使用几种方法来降低推理过程在内存中的成本,并且加快速度。 在多 GPU 上应用各种并行机制来实现对模型的扩展。...其动机是,具有更高 Hessian 谱的参数对量化更敏感,因此需要更高的精度。这种方法本质上是一种识别异常值的方法。 从另一个角度来看,量化问题是一个优化问题。...(可选择)重新训练网络,让新权重保持之前的训练效果。 通过剪枝在密集模型中发现稀疏结构,同时稀疏网络仍然可以保持相似性能的灵感是由彩票假设激发的:这是一个随机初始化的密集前馈网络,它包含一个子网络池。...因为可以在加载 FFN 权重矩阵之前计算 Controller (x),所以可以知道哪些列将被清零,因此选择不将它们加载到内存中以加快推理速度。 图 13....混合专家系统 MoE 专家混合系统 (MoE) 模型是一种专家网络的集合,每个样本仅激活网络的一个子集来获得预测结果。这个想法起源于上世纪九十年代并且与集成方法密切相关。

    1.9K30

    一文看尽12种Dropout及其变体

    Gaussian Dropout 应用于神经网络的dropout方法在继续增长。所以,在讨论DNNs以外的其他东西之前,我想先谈谈一种dropout方法,它当然是最吸引人的。...这是一个限制某些神经元的高预测能力的很好的观点。在测试阶段,你可以根据出现的概率来确定前面方法的权重。 ? 我们以最大池化层为例,但同样可以对其他池化层进行操作。...这称为dropout的逐序列采样。它只是意味着在每个迭代中我们创建一个随机掩码。然后从一个序列到另一个序列,这个掩码保持不变。所以被丢弃的元素一直被丢弃而留下来的元素一直留着。所有的序列都是这样。...Dropout方法也可以提供一个模型不确定性的指标。让我解释一下。对于相同的输入,经历了dropout的模型在每次迭代中会有一个不同的架构。这将导致输出中的方差。...如果网络是相当广义的,并且协同适应是有限的,那么预测是在整个模型中分布的。这将导致在每次迭代中使用相同的输入时输出的方差降低。研究这个方差可以给出一个可以分配给模型的置信度的概念。这可以从Y.

    4.2K20

    EMNLP2023 | 让模型学会将提示插入到合适的中间层

    但是全参数微调的方法需要针对每个下游任务更新全部模型参数,这使得GPU内存和存储成本很大,因此参数高效微调(PETuning)+PLMs的范式出现了。该类方法可以微调较小的参数量来降低训练成本。...提示调优便是一种PETuning的方法,它在输入序列前添加一系列软提示,并只针对新增提示进行调优,一定程度上提升了参数效率,但仍有性能较低和收敛速度较慢等劣势;有研究人员提出在所有隐藏层都添加软提示来提升微调的性能...但是上述方法都是基于启发式的策略来确定插入提示的位置。 我们首先进行了一个试点实验,以证明提示符插入策略进行简单修改可以获得比可调参数的基线更好的性能。...在PTM对输入进行编码后,将使用 [CLS] 的最终隐藏状态来预测分类标签。在提示微调中,下游任务被重新表述为掩码语言模型任务,以缩小预训练和微调之间的差距。...例如,在单句任务中,输入将被转换为模板: 然后,我们将源标签 \mathcal{Y} 映射到 \mathcal{M} 的词汇表 \mathcal{V} 中的一些标签词,然后 [MASK] 最终的隐藏状态输入到掩码语言模型

    34620

    视觉语言模型导论:这篇论文能成为你进军VLM的第一步

    第二类是掩码(masking),其方法是根据某些未被遮掩的文本来重建被遮掩的图块。类似地,通过遮掩描述中的词,也可以让 VLM 根据未被遮掩的图像来重建这些被遮掩的词。...来自目标分布的数据的能量应该较低,其它数据点的能量应该较高。 使用掩码目标的 VLM 在深度学习研究中,掩码是一种常用技术。它可被视为一种特定形式的去噪自动编码器,其中的噪声有一种空间结构。...掩码方法非常适合 Transformer 架构,因此输入信号的 token 化使得随机丢弃特定的输入 token 变得更容易。...其一是 FLAVA,其使用了掩码在内的多种训练策略来学习文本和图像表征。另一个是 MaskVLM,这是一种独立模型。...用于 VLM 的数据剪枝方法可以分为三大类:(1) 启发式方法,可以清除低质量数据对;(2) bootstrapping 方法,使用预训练的 VLM 评估图像和文本的多模态对齐程度,然后丢弃其中对齐较差的数据对

    58010

    时序论文32|AAAI24通过DropPatch增强时间序列建模

    当然一个改进策略是增加掩码比例,但另一个问题出现了:过多的掩码片段的存在会进一步稀释注意力机制专注于数据相关和有信息部分的能力,既分散注意力,如图1(C)所示。...本文模型 本文提出了一种名为 DropPatch 的方法,通过随机丢弃时间序列子序列级别的切片来增强掩码时间序列建模,缓解过拟合和注意力分散问题。DropPatch随机丢弃预先确定比例的片段。...然后,剩余的片段在Transformer编码器中用于掩码和重建。 特别注意:在预训练背景下区分丢弃和掩码操作,丢弃是在掩码和重建之前执行,因此在当前轮次中,被丢弃的片段被排除在所有训练过程之外。...如上图所示,跟着数据流向基本能理解模型结构,DropPatch的核心步骤为: 首先,对多元时间序列进行预处理,将其分割为非重叠的patch片段并排列数据维度,同时位置编码(注意位置编码是在丢弃操作之前计算得到...); 然后,依据设定的丢弃比例随机丢弃部分片段,得到剩余片段及其位置编码; 之后,对剩余片段应用掩码策略生成掩码数据,再将掩码数据嵌入并添加之前丢弃的位置编码形成编码器输入,输入编码器得到序列表示; 最后

    17910

    NIPS 2018 | Quoc Le提出卷积网络专属正则化方法DropBlock

    Le 参与:路 近日,谷歌大脑团队在 arXiv 上发布论文,提出了一种卷积网络正则化方法 DropBlock,它是 dropout 的变体,但青出于蓝而胜于蓝。...当特征互相关联时,即使使用 dropout,输入信息仍然能传输到下一层,导致网络过拟合。这表明我们需要 dropout 的更结构化形式来更好地正则化卷积网络。...由于 DropBlock 丢弃了相关区域中的特征,该网络必须从其他地方寻找证据来拟合数据(见图 1)。 ? 图 1:(a) 卷积神经网络的输入图像。...而丢弃相邻区域可以移除特定语义信息(如头或脚),使剩余的单元学习可以分类输入图像的特征。 实验中,DropBlock 在大量模型和数据集中的性能大大优于 dropout。...因此我们需要 dropout 的一种结构化变体来对卷积网络进行正则化。本论文就介绍了这样一种变体 DropBlock,它会丢弃特征图相邻区域中的单元。

    51020

    南理工&上海AI Lab提出Uniform Masking,为基于金字塔结构的视觉Transformer进行MAE预训练!

    尽管ViTDet试图在微调过程中部分限制某些ViT块的局部、窗口式自注意,但考虑到预训练和微调阶段之间的信息流可以任意不同,最优架构仍未知。...03 方法 作者提出使用统一掩蔽(UM)来支持基于金字塔的VIT的MAE预训练。UM是一种简单的两阶段策略,它将密集图像token转换为稀疏图像token,但在空间上保持其均匀分布。...与完全丢弃屏蔽patch的US阶段不同,SM通过使用共享屏蔽token来保持屏蔽patch,以确保基于金字塔的VIT与位置的兼容性。...执行提出的统一掩蔽以获得紧凑的、重新组织的2D输入(包括可见patch和掩蔽token)。它以缩小的比例(即全部patch的25%)作为编码器的输入。每个掩码token是一个共享的、学习到的嵌入向量。...Reconstruction Target 作者通过预测均匀掩蔽期间每个丢弃的patch的像素值(MAE中的归一化版本)来重建输入。

    58210

    ICML2023 & 新加坡国立 | 一项关于 Transformer参数设置 的深度研究

    并且在视觉任务上,Transformer也大幅优于基于卷积的模型。有了足够的训练数据,基于Transformer的模型可以扩展到数万亿个可训练参数。...然而,正如Zhou等人指出,通过分类任务进行训练(即使用输入序列的全局信号)会存在过度平滑问题。这意味着,在Transformer的更深网络层,所有Token表示往往是相同的。...「掩码自动编码器可以让模型扩展的更深、更宽,而无需额外的训练数据」 与上面从头开始训练不同,掩码自动编码器是一个两阶段训练框架,包括预训练和微调。...「掩码自动编码器可以缓解过度平滑问题」  直观地说,在掩码自动编码器框架(例如 BERT、BEiT)中,目标是根据未屏蔽的令牌恢复屏蔽的令牌。...掩码自动编码器训练目标可以看作是从噪声掩蔽输入信号的HC重建输入信号的高频分量(HC)。因此,掩码自动编码器可以通过学习较慢的HC衰减率来缓解过度平滑。这种能力是通过训练自注意力层中的权重来实现的。

    75420

    多模态视频理解模型新标杆!微软黄学东团队发布 i-Code

    在本文中,我们提出了一种多模态自监督预训练框架「i-Code」,用户可以灵活地将视觉、语音和语言的形式组合成统一的通用的向量表征。在该框架下,我们首先将各个模态的数据输入给预训练的单模态编码器。...这极大地扩展了模型输入数据的规模和多样性,同时涵盖了全部三种目标模式。其次,我们提出了一种融合架构,可以采用研究社区提出的最先进的单模态编码器的上下文输出,而非从头开始构建一个独立的模型。...值得注意的是,我们还可以使用其它的单模态编码器来组成 i-Code 架构。 图 1:(左)i-Code 模型架构(右)融合网络中的注意力和前馈网络操作。...(2)掩码视觉模型(MVM)。我们在视觉自监督学习中采用了与 MLM 一致的高级策略。我们将视觉输入转换为离散词例,屏蔽输入图像中的某些区域,并最大化被屏蔽区域的预测值和真实词例之间的交叉熵。...该数据集还可以被用于构建二元分类任务评估模型,将-3到-1分作为一个类别,将1到3分组作为另一个类别。

    82310

    一篇文章了解网络相关知识——网络基础知识汇总

    这是一种协议,在公共网络上的多台计算机提供一种方式来共享到Internet的单一连接。 OSI参考模型下网络层的工作是什么? 网络层负责数据路由,分组交换和网络拥塞控制。路由器在此层下运行。...RIP:路由信息协议的简称由路由器用于将数据从一个网络发送到另一个网络。 他通过将其路由表广播到网络中的所有其他路由器来有效地管理路由数据。它以跳数为单位确定网络距离。...什么是不同的方式来保护计算机网络? 有几种方法可以做到这一点。在所有计算机上安装可靠和更新的防病毒程序。确保防火墙的设置和配置正确。用户认证也将有很大的帮助。所以这些组合将构成一个高度安全的网络。...实施容错系统的重要性是什么?有限吗? 容错系统确保持续的数据可用性。这是通过消除单点故障来实现的。但是在某些情况下,这种类型的系统将无法保护数据,例如意外删除。 10Base-T是什么意思?...这种攻击可能有不同的形式,由一群永久者组成。这样做的一个常见方法是使系统服务器过载,使其无法在处理合法流量,并将被强制重置。 什么是OSI,他在网络中扮演什么角色?

    1.7K30

    DINO-v2笔记 - plus studio

    实验结果表明,该方法在多个图像理解任务上的表现超过了目前公开的最佳无监督和半监督方法。 作者实际上花了大量的篇幅减少了数据如何创建,如何进行预训练和如何优化训练过程。...项目主页,项目开源在GitHub 数据集准备 作者通过从一个大型未筛选数据池中检索与几个精选数据集中的图像接近的图像来组装他们的LVD-142M数据集。...级目标 随即屏蔽给学生的一些输入补丁,但不屏蔽给老师的。...自注意中的嵌套张量 作者使用了一种新的技术,可以在同一个正向传递中运行全局裁剪和局部裁剪(具有不同数量的补丁标记),与之前的实现相比,可以获得显着的计算效率提升。...有效的随机深度 作者使用了一种改进的随机深度(stochastic depth)方法,相比于传统的掩码方法,该方法跳过了被丢弃的残差计算,从而在一定程度上节省了内存和计算资源。

    65610

    掌握 BERT:自然语言处理 (NLP) 从初级到高级的综合指南(1)

    因此,请系好安全带,让我们踏上 BERT 世界的启蒙之旅,在这里,语言理解超越平凡,实现非凡。 BERT 预处理文本 在 BERT 能够对文本发挥其魔力之前,需要以它可以理解的方式准备和结构化文本。...在本章中,我们将探讨 BERT 预处理文本的关键步骤,包括标记化、输入格式和掩码语言模型 (MLM) 目标。 标记化:将文本分解为有意义的块 想象一下你正在教 BERT 读书。...掩码语言模型 (MLM) 目标:填空游戏 在预训练期间,BERT 会得到一些带有掩码(隐藏)单词的句子。然后,它尝试根据周围的上下文来预测那些被屏蔽的单词。这就像填空游戏的语言版本。...在 NSP 目标中,训练 BERT 来预测文本对中一个句子是否在另一个句子之后。这有助于 BERT 理解句子之间的逻辑联系,使其成为理解段落和较长文本的大师。...该模型在训练时预测屏蔽词,以最大限度地减少预测误差。 BERT 的训练过程就像通过填空和句对理解练习的结合来教它语言规则。在下一章中,我们将深入探讨 BERT 的嵌入以及它们如何为其语言能力做出贡献。

    5.4K11

    带掩码的自编码器(MAE)最新的相关论文推荐

    联邦学习 (FL) 可以使用去中心化数据来训练模型,同时保持数据本地化。现有的 FL 方法假设所有数据都有标签。但是由于标签成本高,医学数据通常没有完整的标签。...自监督学习 (SSL) 方法、对比学习 (CL) 和掩码自编码器 (MAE) 是可以利用未标记数据来预训练模型,然后使用有限标签进行微调。但是结合 SSL 和 FL 是遇到的一个挑战。...(AU) 检测建立一个稳健的模型。...本文提出了一种新的多模态网络,称为多模态通道混合(MCM),可以作为一种预训练模型来学习更加稳健的表示并促进多模态融合。在自动面部动作单元检测的下游任务中评估学习的表示。...随机屏蔽网格的一些补丁,并将损坏的网格输入mesh Transformer,然后通过重构掩码补丁的信息,网络能够学习网格数据的判别表示。

    72520

    下一个CV大模型要来?

    经过海量数据的学习和训练,AI模型慢慢学会了自己生成自然文本。目前,随着GPT及其后续改进模型的不断进步,生成的自然文本几乎可以乱真。...本文提出了一种掩膜自编码器 (MAE)架构,可以作为计算机视觉的可扩展自监督学习器使用,而且效果拔群。 实现方法很简单:先将输入图像的随机部分予以屏蔽(Mask),再重建丢失的像素。...在编码器之后引入掩码标记,并且完整的编码块和掩码标记集由一个小型解码器处理,该解码器以像素为单位重建原始图像。 预训练后,解码器被丢弃,编码器应用于未损坏的图像以生成识别任务的表示。...这样可以节约计算资源,使用一小部分计算和内存来训练非常大的编码器。 MAE解码器 解码器的输入是完整的令牌集。每个掩码标记代表一个共享的、学习过的向量,表示存在要预测的缺失patch。...因此,它的设计可以独立于编码器。实验中使用的解码器更加轻量级。通过这种非对称设计,显著减少了预训练时间。 图像目标的重建 MAE 通过预测每个掩码块的像素值来重建输入图像。

    1K31

    一文总结机器翻译必备经典模型(二)

    2)通过掩码源端未掩码的解码器的输入标记,MASS可以令解码器在预测下一个标记时更多地依赖源端表示,而不是目标端之前的标记,从而更好地促进编码器和解码器之间的联合训练。...Masked Sequence to Sequence Pre-training MASS通过预测句子片段x^(u:v)来预训练一个seq2seq的模型,将被掩码的序列x^(\u:v)作为输入。...MASS的模型结构 下面给出两种跨语言模型( cross-lingual language models,XLMs)方法:一种是只依靠单语数据的无监督方法,另一种是利用平行数据与跨语言模型的有监督方法...2)通过掩码源端未掩码的解码器的输入标记,MASS可以令解码器在预测下一个标记时更多地依赖源端表示,而不是目标端之前的标记,从而更好地促进编码器和解码器之间的联合训练。...Masked Sequence to Sequence Pre-training MASS通过预测句子片段x^(u:v)来预训练一个seq2seq的模型,将被掩码的序列x^(\u:v)作为输入。

    53030
    领券