前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【NPL自然语言处理】初识深度学习模型Transformer

【NPL自然语言处理】初识深度学习模型Transformer

作者头像
小言从不摸鱼
发布2024-09-19 07:55:15
830
发布2024-09-19 07:55:15
举报
文章被收录于专栏:机器学习入门

学习目标 🍀 了解Transformer模型的作用. 🍀 了解Transformer总体架构图中各个组成部分的名称.

🍔 Transformer的诞生

2018年10月,Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!

论文地址: https://arxiv.org/pdf/1810.04805.pdf

而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNET,roBERT等模型击败了BERT,但是他们的核心没有变,仍然是:Transformer。

🍔 Transformer的优势

相比之前占领市场的LSTM和GRU模型,Transformer有两个显著的优势: 1、Transformer能够利用分布式GPU进行并行训练,提升模型训练效率. 2、在分析预测更长的文本时, 捕捉间隔较长的语义关联效果更好.

下面是一张在测评比较图:

🍔 Transformer模型的作用

Transformer 是一种基于自注意力机制的深度学习模型,Transformer 的核心在于其能够处理序列数据时,同时考虑序列中所有元素之间的依赖关系,而不仅仅是像循环神经网络那样只能考虑序列中的顺序依赖。

  • 基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, 文本生成等. 同时又可以构建预训练语言模型,用于不同任务的迁移学习.
  • 在接下来的架构分析中, 我们将假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作, 因此很多命名方式遵循NLP中的规则. 比如: Embeddding层将称作文本嵌入层, Embedding层产生的张量称为词嵌入张量, 它的最后一维将称作词向量等.

🍔 Transformer总体架构图

2.1 Transformer总体架构

  • 输入部分
  • 输出部分
  • 编码器部分
  • 解码器部分

2.2 输入部分包含

  • 源文本嵌入层及其位置编码器
  • 目标文本嵌入层及其位置编码器

2.3 输出部分包含

  • 线性层
  • softmax层

2.4 编码器部分

  • 由N个编码器层堆叠而成
  • 每个编码器层由两个子层连接结构组成
  • 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
  • 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

2.5 解码器部分

  • 由N个解码器层堆叠而成
  • 每个解码器层由三个子层连接结构组成
  • 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
  • 第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
  • 第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

🍔 小结

  • 学习了Transformer模型的作用:
    • 基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, 文本生成等. 同时又可以构建预训练语言模型,用于不同任务的迁移学习.
  • Transformer总体架构可分为四个部分:
    • 输入部分
    • 输出部分
    • 编码器部分
    • 解码器部分
  • 输入部分包含:
    • 源文本嵌入层及其位置编码器
    • 目标文本嵌入层及其位置编码器
  • 输出部分包含:
    • 线性层
    • softmax处理器
  • 编码器部分:
    • 由N个编码器层堆叠而成
    • 每个编码器层由两个子层连接结构组成
    • 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
    • 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接
  • 解码器部分:
    • 由N个解码器层堆叠而成
    • 每个解码器层由三个子层连接结构组成
    • 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
    • 第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
    • 第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-09-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🍔 Transformer的诞生
  • 🍔 Transformer的优势
  • 🍔 Transformer模型的作用
  • 🍔 Transformer总体架构图
    • 2.1 Transformer总体架构
      • 2.2 输入部分包含
        • 2.3 输出部分包含
          • 2.4 编码器部分
            • 2.5 解码器部分
            • 🍔 小结
            相关产品与服务
            机器翻译
            机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档