wikitext_GitHub wikis可以使用wikitext模板吗？_用python -KeyError解析wikitext：‘修订版’ - 腾讯云开发者社区

摘要：基于记忆的神经网络通过长期记忆信息来建模时序数据。但是，目前尚不清楚它们是否具备对记忆信息执行复杂关系推理的能力。在本论文中，我们首先确认了标准记忆架构在执行需要深入理解实体连接方式的任务（即涉及关系推理的任务）时可能会比较困难。然后我们利用新的记忆模块 Relational Memory Core（RMC）改进这些缺陷，RMC 使用 Multi-head 点积注意力令记忆相互影响。最后，我们在一系列任务上对 RMC 进行测试，这些任务可从跨序列信息的更强大关系推理中受益，测试结果表明在强化学习领域（如 Mini PacMan）、程序评估和语言建模上获得了很大进步，在 WikiText-103、Project Gutenberg 和 GigaWord 数据集上获得了当前最优的结果。

您找到你想要的搜索结果了吗？

是的

没有找到

大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增

最强 NLP 预训练模型库 PyTorch-Transformers 正式开源：支持 6 个预训练框架，27 个预训练模型

该项目支持 BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM 等，并包含 27 个预训练模型。

模型压缩95%，MIT韩松等人提出新型Lite Transformer

虽然推出还不到 3 年，Transformer 已成为自然语言处理（NLP）领域里不可或缺的一环。然而这样流行的算法却需要极高的算力才能实现足够的性能，这对于受到算力和电池严格限制的移动端来说有些力不从心。

干货 | AI 从业者都应该知道的实验数据集

AI 科技评论按：数据集对于深度学习模型的重要性不言而喻，然而根据性质、类型、领域的不同，数据集往往散落在不同的资源平台里，急需人们做出整理。 fast.ai 近期将这些重要的数据集汇总到了一篇文章里，雷锋网 AI 科技评论把文章编译如下。

大模型高效下载部署方式

一文读完GitHub30+篇顶级机器学习论文（附摘要和论文下载地址）

作者：常佩琦弗格森【新智元导读】今天介绍Github上的开源项目，专门用于更新最新的研究突破，具体说来，就是什么算法在哪一个数据集上取得了state-of-the-art 的成果，包括语音、计算机视觉和NLP、迁移学习、强化学习。在这里，你可以读懂2017机器学习领域究竟在哪些方向上取得了突破，各大前沿机构和学术大牛们在哪些方向上发力。比如，Hinton掀起深度学习革命的Capsule 网络、再到谷歌的“一个模型学习所有”“Attention is all you need”以及Facebook在机器

011

博客 | AI 从业者都应该知道的实验数据集

少了数据，我们的机器学习和深度学习模型什么也干不了。这么说吧，那些创建了数据集、让我们可以训练模型的人，都是我们的英雄，虽然这些人常常并没有得到足够的感谢。让人庆幸的是，那批最有价值的数据集后来成了「学术基准线」——被研究人员广泛引用，尤其在算法变化的对比上；不少名字则成为圈内外都耳熟能详的名称，如 MNIST、CIFAR 10 以及 Imagenet 等。

【论文解读】大模型算法发展

论文研究了自深度学习出现以来，预训练语言模型的算法的改进速度。使用Wikitext和Penn Treebank上超过200个语言模型评估的数据集(2012-2023年)，论文发现达到设定性能阈值所需的计算大约每8个月减半一次，95%置信区间约为5到14个月，大大快于摩尔定律下的硬件增益。论文估计了增强的scaling law，这使论文能够量化算法的进展，并确定scaling模型与训练算法中的创新的相对贡献。尽管算法的快速发展和transformer等新架构的发展，在这段时间内，计算量的增加对整体性能的提高做出了更大的贡献。虽然受到有噪声的基准数据的限制，但论文的分析量化了语言建模的快速进展，揭示了计算和算法的相对贡献。

性能不打折，内存占用减少90%，Facebook提出极致模型压缩方法Quant-Noise

我们都知道，对于神经网络来说，参数量越大、层数越多，就代表着输出的结果越精细。当然，这也意味着许多性能优越的神经网络体积会非常庞大。比如当前的标准机器翻译架构 Transformer，一层就可能包含数百万个参数。即使是一些优化过性能和参数效率的模型（比如 EfficientNet），也仍然需要几十到几百 MB。这就使得它们的应用范围限制在机器人或者虚拟助手等领域。

transformers示例

「重要」：要运行示例的最新版本，你必须从源代码安装并为示例安装一些特定要求。在新的虚拟环境中执行以下步骤：

有时抄个1000词，有时自己发挥，新研究揭示GPT到底是怎么写作文的

机器之心报道机器之心编辑部 GPT-2 这样的大规模语言模型也能学会「句法」、生成新词，然而事情真要这么简单就好了。深度学习到底能学多深？在过去的一段时间，我们大多会用生成文本的质量来评价 GPT 等语言生成模型的表现。但与此同时，我们忽略了一个问题：那些用生成模型做的「狗屁不通文章生成器」、「满分作文生成器」到底是鹦鹉学舌（简单地记住看过的例子，并以浅显的方式重新组合），还是真的学到了复杂的语言结构？在最近的一篇文章中，来自约翰霍普金斯大学、微软研究院等机构的研究者就提出了这样一个问题。神经网

ACL 2020 | 玩转网络结构搜索？你需要更大的搜索空间

网络结构搜索技术近些年获得了广泛的关注，但是其搜索空间往往被限缩在元结构内部（循环单元或卷积单元等），缺乏对模型整体架构的学习。

使用Huggingface创建大语言模型RLHF训练流程的完整教程

ChatGPT已经成为家喻户晓的名字，而大语言模型在ChatGPT刺激下也得到了快速发展，这使得我们可以基于这些技术来改进我们的业务。

资源 | DMLC团队发布GluonCV和GluonNLP：两种简单易用的DL工具箱

选自 Gluon 机器之心编译参与：思源、李亚洲近日，DMLC 发布了简单易用的深度学习工具箱 GluonCV 和 GluonNLP，它们分别为计算机视觉和自然语言处理提供了顶级的算法实现与基本运算。本文简要介绍了这两个工具箱，并提供了基本的使用示例，更多详细的内容请查看它们的原文档。 GluonCV 文档地址：http://gluon-cv.mxnet.io GluonNLP 文档地址：http://gluon-nlp.mxnet.io/ 自去年以来，MXNet 的动态图接口 Gluon 凭借着它的

ACL 2022丨香港大学&华为诺亚方舟新工作：生成式预训练语言模型的量化压缩

近日，香港大学与华为诺亚方舟实验室在 ACL 2022 上联合发表了一篇工作，针对现有大规模生成式预训练语言模型的压缩需求，提出了新的量化压缩解决方案，并取得了出色的进步：分别在 GPT-2 与 BART 上实现了 14.4 倍与 13.4 倍的压缩率。他们将量化的 GPT 模型与 BART 模型分别命名为「QuantGPT」与「QuantBART」。作者丨陶超凡生成式预训练语言模型 (pre-trained language models, PLM) 的规模不断扩大，极大地增加了对模型压缩的需求。尽

500万token巨兽，一次读完全套「哈利波特」！比ChatGPT长1000多倍

记性差是目前主流大型语言模型的主要痛点，比如ChatGPT只能输入4096个token（约3000个词），经常聊着聊着就忘了之前说什么了，甚至都不够读一篇短篇小说的。

NLP领域的ImageNet时代到来：词嵌入「已死」，语言模型当立

长期以来，词向量一直是自然语言处理的核心表征技术。然而，其统治地位正在被一系列令人振奋的新挑战所动摇，如：ELMo、ULMFiT 及 OpenAI transformer。这些方法因证明预训练的语言模型可以在一大批 NLP 任务中达到当前最优水平而吸引了很多目光。这些方法预示着一个分水岭：它们在 NLP 中拥有的影响，可能和预训练的 ImageNet 模型在计算机视觉中的作用一样广泛。

受启于做梦，DeepMind 提出压缩 Transformer，并开源书本级数据集PG-19

论文链接：https://arxiv.org/pdf/1911.05507.pdf

NeurIPS 2019 神经网络压缩与加速竞赛双项冠军技术解读

日前，神经信息处理系统大会（NeurIPS2019）于12月8日至14日在加拿大温哥华举行，中国科学院自动化研究所及其南京人工智能芯片创新研究院联合团队在本次大会的神经网络压缩与加速竞赛（MicroNet Challenge）中获得双料冠军！

Hyena成下一代Transformer？StripedHyena-7B开源：最高128k输入，训练速度提升50%

最近几年发布的AI模型，如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构，但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势，这一特性严重限制了Transformer在长序列下的应用，例如无法一次性处理一整本书，或是处理千兆像素级别的图像。

47分钟，BERT训练又破全新纪录！英伟达512个GPU训练83亿参数GPT-2 8B

NVIDIA DGX SuperPOD在短短47分钟内训练BERT-Large，并训练GPT-2 8B，这是有史以来最大的具有8.3Bn参数的Transformer网络。

NLU新里程碑，微软DeBERTa登顶SuperGLUE排行榜，显著超越人类

去年 6 月，来自微软的研究者提出一种新型预训练语言模型 DeBERTa，该模型使用两种新技术改进了 BERT 和 RoBERTa 模型。8 月，该研究开源了模型代码，并提供预训练模型下载。最近这项研究又取得了新的进展。

指数级加速架构搜索：CMU提出基于梯度下降的可微架构搜索方法

研究者称，该方法已被证明在卷积神经网络和循环神经网络上都可以获得业内最优的效果，而所用 GPU 算力有时甚至仅为此前搜索方法的 700 分之 1，这意味着单块 GPU 也可以完成任务。该研究的论文《DARTS: Differentiable Architecture Search》一经发出便引起了 Andrew Karpathy、Oriol Vinyals 等学者的关注。

ACL 2018 | 神经语言模型如何利用上下文信息：长距离上下文的词序并不重要

选自arXiv 作者：Urvashi Khandelwal等机器之心编译参与：Geek AI、刘晓坤本研究旨在回答「神经语言模型如何利用上下文信息」的问题。通过控制变量法，斯坦福的研究者实验探究了神经语言模型使用的上下文信息量、近距离和远距离的上下文的表征差异，以及复制机制对模型使用上下文的作用这三个议题。语言模型是诸如机器翻译和总结等自然语言生成任务中的一个重要组成部分。这些任务会利用上下文（词序列）信息估计待预测单词的概率分布。近年来，一系列神经语言模型（NLM）（Graves, 2013; J

ICLR盲审阶段就被评审赞不绝口的论文：会是Transformer架构的一大创新吗？

尽管取得了很多显著的成就，但训练深度神经网络（DNN）的实践进展在很大程度上独立于理论依据。大多数成功的现代 DNN 依赖残差连接和归一化层的特定排列，但如何在新架构中使用这些组件的一般原则仍然未知，并且它们在现有架构中的作用也依然未能完全搞清楚。

Myary for mac(写作文本创建工具)

Myary 是一款适用于 Mac 和 iOS 平台的日记和笔记本应用程序。它提供了直观易用的界面设计，支持多种文本格式，如 Markdown、纯文本和富文本等，以及多种语言输入方式。Myary 还提供了丰富的功能和工具，如打印、导出、备份、自动保存等，方便用户管理和保护他们的数据。

170亿参数加持，微软发布史上最大Transformer模型

BERT和GPT-2之类的深度学习语言模型（language model, LM）有数十亿的参数，互联网上几乎所有的文本都已经参与了该模型的训练，它们提升了几乎所有自然语言处理（NLP）任务的技术水平，包括问题解答、对话机器人和文档理解等。

自然语言处理全家福：纵览当前NLP中的任务、数据、模型与论文

组合范畴语法（CCG; Steedman, 2000）是一种高度词汇化的形式主义。Clark 和 Curran 2007 年提出的标准解析模型使用了超过 400 个词汇语类（或超级标记（supertag）），典型的解析器通常只包含大约 50 个词性标注。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐