典型数据处理:质量过滤、冗余去除、隐私消除、词元切分等。
构建词元表:覆盖绝大部分的输入词,并避免词表过大所造成的数据稀疏问题。 BPE 将字节视为合并的基本符号。 算法过程
统计每个相邻字节对的出现频率,合并出现频率最高的字节对,将其作为 新的词元加入词表。
2. 全词切分为词元以及词元合并为全词的方法
输入词序列全词切分,对照词表按词元从长到短顺序遍历匹配。 合成全词时,词元表示失败部分视作未登录词,赋予相同表示。
开源数据集合
WordPiece词元分析算法(BERT)
HuggingFace 提供的评分公式:
Unigram词元分析算法(T5,mBART)
"语料库的似然性"通常是指一个特定文本序列(通常是一段文本或一个句子)在语料库中出现的概率。
BPE词元分析算法(GPT-2,BART,LLaMA) 将字节视为合并的基本符号。
Tips:
:表示d维度张向量空间。
: d ×m 的实数矩阵的空间。 Hugging Face(Hugging Face Transformers)是一个面向自然语言处理(NLP)领域的开源社区和公司,它以构建和维护各种预训练模型以及提供与自然语言处理相关的工具和库而闻名。该社区和公司的名字“Hugging Face”来自于一个富有亲和力的面部照片,反映了他们的愿景,即使人工智能模型变得更加友好和可访问。 Hugging Face的主要贡献和活动包括:
检查点是模型在训练或生成过程中的某个时间点的保存状态,通常包括模型的权重参数和其他相关信息,以便稍后能够重新加载模型并继续训练或进行推理。
消融实验(ablation experiment)是一种用于研究机器学习模型或深度学习模型的重要实验方法。在这种实验中,研究人员有目的地将模型的某些组件或特性删除或禁用,以评估这些组件对模型性能的影响。消融实验的主要目的是帮助理解模型的工作原理、识别关键组件,以及确定哪些因素对模型性能产生了最大的影响。