BertTokenizer -当编码和解码序列时，会出现额外的空格 - 腾讯云开发者社区

BERT（Bidirectional Encoder Representations from Transformers）在各种自然语言处理任务中提供了最前沿的结果在深度学习社区引起了轰动。德夫林等人。2018 年在 Google 使用英文维基百科和 BookCorpus 开发了 BERT，从那时起，类似的架构被修改并用于各种 NLP 应用程序。XL.net 是建立在 BERT 之上的示例之一，它在 20 种不同任务上的表现优于 BERT。在理解基于 BERT 构建的不同模型之前，我们需要更好地了解 Transformer 和注意力模型。

您找到你想要的搜索结果了吗？

是的

没有找到

多项NLP任务新SOTA，Facebook提出预训练模型BART

聊聊HuggingFace Transformer

一个完整的transformer模型主要包含三部分：Config、Tokenizer、Model。

Go语言中的JSON处理【Go语言圣经笔记】

JavaScript对象简谱（JSON, Java Script Object Notation）是一种用于发送和接收结构化信息的标准协议。在类似的协议中，JSON并不是唯一的一个标准协议。 XML（§7.14）、ASN.1和Google的Protocol Buffers都是类似的协议，并且有各自的特色，但是由于简洁性、可读性和流行程度等原因，JSON是应用最广泛的一个。

解读大模型（LLM）的token

正像陆奇博士所说的那样，大型语言模型为从文本生成到问题回答的各种任务提供了令人印象深刻的能力，不仅彻底改变了自然语言处理(NLP)领域，而且作为基础模型会改变整个软件生态。

【干货】seq2seq模型实例：用Keras实现机器翻译

【导读】近日，人工智能学者Ravindra Kompella发表一篇博客，介绍了作者实现的基于keras的机器翻译例子。作者通过一个seq2seq编码器-解码器网络实现英语到法语的自动翻译。作者在博文中详细介绍了自己的模型架构和训练数据，并使用代码片段分步骤对训练过程进行讲解。总之，这是一篇比较详尽的机器翻译应用示例教程，如果你有从事机器翻译或seq2seq模型相关的研究，可以详细阅读一下，相信一定对您的工程和理论都有所帮助。专知内容组编辑整理。 Neural Machine Translation——Us

通用视觉推理显现，UC伯克利炼出单一纯CV大模型，三位资深学者参与

最近一段时间以来，GPT 和 LLaMA 等大型语言模型 (LLM) 已经风靡全球。

已解决Java.net.MalformedURLException异常的有效方法java.net.MalformedURLException: no protocol异常处理

本篇博客讨论了Java应用程序中可能遇到的java.net.MalformedURLException: no protocol异常，并提供了解决方案。我们首先介绍了该异常的错误信息和可能的原因，然后提供了两种解决方案，一种是确保URL包含正确的通信协议，另一种是通过URL编码和解码来处理特殊字符和编码问题。我们还探讨了在JMeter中可能遇到的异常，并给出了相应的解决方法。通过阅读本文，读者可以更好地理解并解决这类异常，提高开发效率。

自然语言处理：电脑如何理解我们的语言？

在自然语言处理学科发展的早期，人们将一些词语的关系串成一个网络，这个网络也叫作同义词词典，类似下图，从一个单词出发可以得到与它相关的近义词，反义词等，通过这个网络，可以让计算机了解单词之间的相关性（要找到一个词的近义词，就可能用某种图搜索方法去寻找）

目标检测 | Facebook开源新思路！DETR：用Transformers来进行端到端的目标检测

论文地址：https://arxiv.org/pdf/2005.12872.pdf

Stable Diffusion的入门介绍和使用教程

Stable Diffusion是一个文本到图像的潜在扩散模型，由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。使用这个模型，可以生成包括人脸在内的任何图像，因为有开源的预训练模型，所以我们也可以在自己的机器上运行它，如下图所示。

BPE算法详解

在NLP模型中，输入通常是一个句子，例如"I went to New York last week."，一句话中包含很多单词（token）。传统的做法是将这些单词以空格进行分隔，例如['i', 'went', 'to', 'New', 'York', 'last', 'week']。然而这种做法存在很多问题，例如模型无法通过old, older, oldest之间的关系学到smart, smarter, smartest之间的关系。如果我们能使用将一个token分成多个subtokens，上面的问题就能很好的解决。本文将详述目前比较常用的subtokens算法——BPE（Byte-Pair Encoding）

Shreya Gherani：BERT庖丁解牛（Neo Yan翻译）

BERT是双向转换器（Bi-Transformer）的缩写。这是谷歌在2018年末开发并发布的一种新型语言模型。BERT等经过预处理的语言模型在问答、命名实体识别、自然语言推理、文本分类等自然语言处理任务中发挥着重要作用。

BERT原理解读及HuggingFace Transformers微调入门

自BERT（Bidirectional Encoder Representations from Transformer）[1]出现后，NLP界开启了一个全新的范式。本文主要介绍BERT的原理，以及如何使用HuggingFace提供的 transformers 库完成基于BERT的微调任务。

为文本摘要模型添加注意力机制：采用LSTM的编解码器模型实现

这些方法依赖于从一段文本中提取几个部分，比如短语和句子，然后将它们堆在一起创建摘要。因此，在提取方法中，识别出用于总结的正确句子是至关重要的。让我们通过一个例子来理解这一点。

掌握 BERT：自然语言处理 (NLP) 从初级到高级的综合指南（1）

BERT（来自 Transformers 的双向编码器表示）是 Google 开发的革命性自然语言处理 (NLP) 模型。它改变了语言理解任务的格局，使机器能够理解语言的上下文和细微差别。在本文[1]中，我们将带您踏上从 BERT 基础知识到高级概念的旅程，并配有解释、示例和代码片段。

【视频编码】 Content Aware ABR技术（七）

在本系列前面的帖子中，我们连续梳理了Netflix、YouTube、Beamr、EuclidIQ、Bitmovin及Harmonic在CAE(Content Aware Encoding) for A

escape和unescape的用法

escape() 和 unescape() 是 JavaScript 中的两个函数，用于编码和解码字符串。

词！自然语言处理之词全解和Python实战！

在自然语言处理（NLP，Natural Language Processing）领域，“词”构成了语言的基础单位。与此同时，它们也是构建高级语义和语法结构的基石。在解决各种NLP问题，如机器翻译、情感分析、问答系统等方面，对“词”的全面了解不仅有助于我们设计更高效的算法，还能加深我们对语言本质的认识。

语言模型悄悄偷懒？新研究：上下文太长，模型会略过中间不看

大型语言模型大有用处，在设计 prompt 方面，人们通常建议为语言模型提供详尽的任务描述和背景信息。

预备小菜：Python入门之字符串

数据分析的结果很大程度上跟数据质量有关系，在数据采集过程中的数据清洗步骤下，对字符串的操作是最常见的场景，下面我们一起来学习下在Python中是怎么操作字符串的。

[自然语言处理|NLP] 多语言处理中的应用：从原理到实践

随着全球化的推进，多语言处理成为自然语言处理（NLP）领域的一个关键挑战。本文将深入研究NLP在多语言处理中的应用，探讨其原理、常见技术和面临的挑战。通过详细解析多语言处理的实践，我们将了解如何有效地处理不同语言的文本数据。

016

通俗理解ChatGPT中Transformer架构

Transformer架构是由Vaswani等人在2017年提出的一种深度学习模型，它在自然语言处理（NLP）领域取得了革命性的进展。Transformer的核心思想是使用自注意力（Self-Attention）机制来捕捉输入序列中的长距离依赖关系，而无需依赖于循环神经网络（RNN）或卷积神经网络（CNN）。以下是Transformer架构的详细介绍和实现原理： 1. 多头自注意力机制（Multi-Head Self-Attention）自注意力机制是Transformer的核心，它允许模型在处理序列的每个元素时，同时考虑序列中的所有其他元素。这种机制通过计算每个元素对其他元素的注意力权重来实现，这些权重表明了在生成当前元素时，其他元素的重要性。多头自注意力机制进一步扩展了自注意力的概念，它包含多个注意力“头”，每个头学习序列的不同方面。这增加了模型的表达能力，因为它可以从多个角度理解数据。 2. 位置编码（Positional Encoding）由于Transformer模型没有循环结构，它需要一种方式来理解单词在序列中的位置。位置编码通过向输入添加额外的信息来解决这个问题，这些信息指示了单词在序列中的位置。位置编码通常使用正弦和余弦函数的组合来生成，这允许模型学习到序列中元素的相对位置。 3. 编码器和解码器层（Encoder and Decoder Layers） Transformer模型由编码器和解码器组成，每个部分包含多个层。编码器用于处理输入序列，解码器用于生成输出序列。 - **编码器**：由多个相同的层堆叠而成，每层包含自注意力机制和前馈神经网络。自注意力机制用于捕捉输入序列内部的依赖关系，而前馈网络则对每个位置的表示进行独立处理。 - **解码器**：也由多个相同的层堆叠而成，每层包含自注意力机制、编码器-解码器注意力机制和前馈神经网络。编码器-解码器注意力机制允许解码器关注输入序列中的相关部分。 4. 层归一化和残差连接为了稳定训练过程，Transformer模型在每个子层（自注意力和前馈神经网络）的输出上应用层归一化。此外，每个子层的输出都会通过一个残差连接，然后将结果传递给下一个子层。这种设计有助于缓解梯度消失问题，使得模型可以更有效地学习。

深度解析BERT：从理论到Pytorch实战

在信息爆炸的时代，自然语言处理（NLP）成为了一门极其重要的学科。它不仅应用于搜索引擎、推荐系统，还广泛应用于语音识别、情感分析等多个领域。然而，理解和生成自然语言一直是机器学习面临的巨大挑战。接下来，我们将深入探讨自然语言处理的一些传统方法，以及它们在处理语言模型时所面临的各种挑战。

Go语言核心之美－JSON

JSON(JavaScript Object Notation)是一种发送和接收结构化信息的标准化表示法。类似的标准化协议还有XML、ASN.1、Protobuf、Thrift等等，这些协议都有自己的鲜明特色，但是由于JSON的简洁、可读、流行性，因此它是应用最广泛的协议之一。 Go语言对上述协议的编码和解码都有很好的支持，例如标准库中的encoding/json、encoding/xml、encoding/asn1以及第三方库github.com/golang/protobuf,这些包提供的API接口都

LLM-TAP随笔——大语言模型基础【深度学习】【PyTorch】【LLM】

这个架构常用于编码器-解码器架构是一种常用于序列到序列（Seq2Seq）任务的深度学习架构。序列到序列的问题举例：NLP问题（机器翻译、问答系统和文本摘要）。

python用于NLP的seq2seq模型实例:用Keras实现神经机器翻译

在本文中，我们将看到如何创建语言翻译模型，这也是神经机器翻译的非常著名的应用。我们将使用seq2seq通过Python的Keras库创建我们的语言翻译模型。

【注意力机制】transformers序列化实践

如果使用这些默认文件名保存模型，则可以使用from_pretrained()方法重新加载模型和tokenizer。

nlp-with-transformers系列-03_剖析transformers模型

在第2章中，我们看到了微调和评估一个Transformer所需要的东西。现在让我们来看看它们在引擎盖下是如何工作的。在本章中，我们将探讨Transformer模型的主要组件以及如何使用PyTorch实现它们。我们还将提供关于如何在TensorFlow中做同样事情的指导。我们将首先专注于建立注意力机制，然后添加必要组件，使Transformer编码器工作。我们还将简单了解一下编码器和解码器模块之间的结构差异。在本章结束时，你将能够自己实现一个简单的Transformer模型!

语言模型：太长我不看。斯坦福新研究：上下文太长，模型会略过中间不看

大型语言模型大有用处，在设计 prompt 方面，人们通常建议为语言模型提供详尽的任务描述和背景信息。

NodeJS模块研究 - querystring

querystring 是专门用来解析和格式化 URL 的查询字符串 URL 的工具。

训练你自己的自然语言处理深度学习模型，Bert预训练模型下游任务训练：情感二分类

更直观来看：我们的自然语言是用各种文字表示的，经过编码器，以及特征提取就可以变为计算机能理解的语言了

TensorFlow从1到2（十）带注意力机制的神经网络机器翻译

机器翻译和语音识别是最早开展的两项人工智能研究。今天也取得了最显著的商业成果。早先的机器翻译实际脱胎于电子词典，能力更擅长于词或者短语的翻译。那时候的翻译通常会将一句话打断为一系列的片段，随后通过复杂的程序逻辑对每一个片段进行翻译，最终组合在一起。所得到的翻译结果应当说似是而非，最大的问题是可读性和连贯性非常差。实际从机器学习的观点来讲，这种翻译方式，也不符合人类在做语言翻译时所做的动作。其实以神经网络为代表的机器学习，更多的都是在“模仿”人类的行为习惯。一名职业翻译通常是这样做：首先完整听懂要翻译的语句，将语义充分理解，随后把理解到的内容，用目标语言复述出来。而现在的机器翻译，也正是这样做的，谷歌的seq2seq是这一模式的开创者。如果用计算机科学的语言来说，这一过程很像一个编解码过程。原始的语句进入编码器，得到一组用于代表原始语句“内涵”的数组。这些数组中的数字就是原始语句所代表的含义，只是这个含义人类无法读懂，是需要由神经网络模型去理解的。随后解码过程，将“有含义的数字”解码为对应的目标语言。从而完成整个翻译过程。这样的得到的翻译结果，非常流畅，具有更好的可读性。

python用于NLP的seq2seq模型实例:用Keras实现神经机器翻译

在本文中，我们将看到如何创建语言翻译模型，这也是神经机器翻译的非常著名的应用。我们将使用seq2seq体系结构通过Python的Keras库创建我们的语言翻译模型。

二代GAN网络崛起？DALL·E Mini画面惊悚，老外玩疯了！

---- 新智元报道编辑：袁榭如願好困【新智元导读】2022年6月，Hugging Face公司的码农向全网开放DALL·E Mini使用权限，不必上等待名单被OpenAI挑选，只要通网，人人都能用DALL·E了。现在谷歌、OpenAI等大厂们的以文生图模型，是趣味新闻报道者的衣食父母、梗图爱好者的久旱甘霖。输行字就能生成各种或唯美或搞笑的图片，不用很累很麻烦，就能很吸引人关注。所以DALL·E系列和Imagen们，具有衣食父母和久旱甘霖的必备属性：可获取程度有限，不是随时无限派发的

SSRF漏洞的URL编码

虽然知道什么是 URL编码，之前也学习过 SSRF漏洞，但是对 SSRF漏洞中要进行一次URL编码或者两次URL编码甚是疑惑。相信很多如我一般初学的小伙伴也有此疑惑。因此，特意学习探讨，于此总结。

文本生成魔改方案汇总！

文本生成是NLP中较难的点，应用场景多且广泛。本篇笔记录一下文本生成的应用场景和主流方案，主要是基础的学习汇总和解决方案的梳理，相关学习资料在文中有链接或者文末有参考文献（我人工筛选的）都是相对经典的。

SERDES关键技术总结

随着大数据的兴起以及信息技术的快速发展，数据传输对总线带宽的要求越来越高，并行传输技术的发展受到了时序同步困难、信号偏移严重，抗干扰能力弱以及设计复杂度高等一系列问题的阻碍。与并行传输技术相比，串行传输技术的引脚数量少、扩展能力强、采用点对点的连接方式，而且能提供比并行传输更高带宽，因此现已广泛用于嵌入式高速传输领域。

谷歌开始卷自己，AI架构Pathways加持，推出200亿生成模型

来源：机器之心本文约1700字，建议阅读5分钟继imagen后，谷歌又推出了文本，如想生成模拟Parti。继 Imagen 后，谷歌又推出了文本 - 图像生成模型 Parti。你见过一只小狗破壳而出吗？或者用飞艇俯瞰蒸汽朋克中的城市？又或者两个机器人在电影院像人类一样看电影…… 这些听起来可能有些天马行空，但一种名为「文本到图像生成」的新型机器学习技术使这些成为可能。谷歌研究院的科学家和工程师一直致力于探索使用各种 AI 技术生成文本到图像的方法。今年 5 月底，谷歌推出 AI 创作神器 Imag

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐