量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中,GPTQ在gpu上提供了惊人的性能。与非量化模型相比,该方法使用的VRAM几乎减少了3倍,同时提供了相似的精度水平和更快的生成速度。
摘要:基于记忆的神经网络通过长期记忆信息来建模时序数据。但是,目前尚不清楚它们是否具备对记忆信息执行复杂关系推理的能力。在本论文中,我们首先确认了标准记忆架构在执行需要深入理解实体连接方式的任务(即涉及关系推理的任务)时可能会比较困难。然后我们利用新的记忆模块 Relational Memory Core(RMC)改进这些缺陷,RMC 使用 Multi-head 点积注意力令记忆相互影响。最后,我们在一系列任务上对 RMC 进行测试,这些任务可从跨序列信息的更强大关系推理中受益,测试结果表明在强化学习领域(如 Mini PacMan)、程序评估和语言建模上获得了很大进步,在 WikiText-103、Project Gutenberg 和 GigaWord 数据集上获得了当前最优的结果。
【新智元导读】Facebook 在尝试使用“门卷积网络”的方法来为语言建模,最近,他们首次取得了超过递归神经网络方法建模方法的性能表现,性能了超越目前被认为是最好的 LSTM 方法。在 WikiText 数据集上,他们创造了新的性能记录。同时,在谷歌 Billion Word 基准上,单个GPU运行的横向对比中的表现也做到了最好。LSTM 目前在自然语言处理上有着广泛的应用,卷积的方法会替代递归的方法吗?本文将带来国内专家的深度解读。 语言模型对于语音识别系统来说,是一个关键的组成部分,在机器翻译中也是如
作者:Chenguang Wang、Mu Li、Alexander J. Smola
Transformer 在深度学习中占据主导地位,但二次存储和计算需求使得 Transformer 的训练成本很高,而且很难使用。许多研究都尝试线性化核心模块:以 Performer 为例,使用带核的注意力机制。然而,这种方法还存在很多缺点,例如它们依赖于随机特征。
语言建模需要对长期依赖性进行建模,它成功应用了无监督的预训练方法 (Peters et al., 2018; Devlin et al., 2018)。但要让神经网络对序列数据的长期依赖性建模一直都是一项挑战。
Huggingface开源大模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4
近日,来自MIT FutureTech的研究人员发表了一项关于大模型能力增长速度的研究,
选自arXiv 机器之心编译 参与:Panda 卡内基梅隆大学计算机科学学院最近一篇正在评议阶段的 ICLR 2018 论文在 arXiv 上公开,该论文证明使用分布式词嵌入的 Softmax 实际上没有足够的能力来建模自然语言,他们为此也提出了自己的解决方法。本论文的并列第一作者是 Zhilin Yang 和 Zihang Dai。杨植麟(Zhilin Yang)本科就读于清华大学计算机系,现就读于CMU。曾在清华 4 年保持全年级第一,同时也是清华大学 2014 年本科生特奖获得者。此外,领导苹果公司
新智元编译 来源:arxiv 编辑:肖琴 【新智元导读】传统的记忆架构做关系推理时有困难,DeepMind和伦敦大学学院的这篇论文提出关系推理模块RMC,能够在序列信息中执行关系推理,在WikiT
人可以轻易记起几年前的事情,并根据那时的记忆在当下继续思考。这个能力对于计算机来说,就非常困难。
近期关于无监督语言建模的研究证明,训练大型神经语言模型推动了自然语言处理应用中的 SOTA 结果。但是,对于非常大的模型而言,内存限制了实际训练的模型大小。模型并行化使得我们能够训练更大的模型,因为模型并行化可以将参数分割并分配至多个处理器。
数据集在计算机科学和数据科学中发挥着至关重要的作用。它们用于训练和评估机器学习模型,研究和开发新算法,改进数据质量,解决实际问题,推动科学研究,支持数据可视化,以及决策制定。数据集提供了丰富的信息,用于理解和应用数据,从而支持各种应用领域,包括医疗、金融、交通、社交媒体等。正确选择和处理数据集是确保数据驱动应用成功的关键因素,对于创新和解决复杂问题至关重要。因此,数据集不仅是技术发展的基础,也是推动科学进步和社会决策制定的强大工具。
随着大模型的发展,越来越多人员参与到大模型炼丹和实践中,但HuggingFace在国内无法方便访问,带来不少问题。
澜舟科技算法实习生,北京交通大学自然语言处理实验室二年级硕士生,目前正在进行文本生成方向的研究。
如今,语言模型的世界,几乎被Transformer/BERT占领了。但如果回到2017年,把轰动世界的论文Attention Is All You Need从时间线上抹掉呢?
对于PyTorch加载和处理不同类型数据,官方提供了torchvision和torchtext。
作者:Xindian Ma、Peng Zhang、Shuai Zhang、Nan Duan、Yuexian Hou、Dawei Song、Ming Zhou
近日,CMU和谷歌联手发布一篇论文,介绍了一种新的语言建模方法Transformer-XL。
大型语言模型(LLM)通常拥有数十亿的参数,用了数万亿 token 的数据进行训练,这样的模型训练、部署成本都非常高。因此,人们经常用各种模型压缩技术来减少它们的计算需求。
该项目支持 BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM 等,并包含 27 个预训练模型。
虽然推出还不到 3 年,Transformer 已成为自然语言处理(NLP)领域里不可或缺的一环。然而这样流行的算法却需要极高的算力才能实现足够的性能,这对于受到算力和电池严格限制的移动端来说有些力不从心。
AI 科技评论按:数据集对于深度学习模型的重要性不言而喻,然而根据性质、类型、领域的不同,数据集往往散落在不同的资源平台里,急需人们做出整理。 fast.ai 近期将这些重要的数据集汇总到了一篇文章里,雷锋网 AI 科技评论把文章编译如下。
作者:常佩琦 弗格森 【新智元导读】 今天介绍Github上的开源项目,专门用于更新最新的研究突破,具体说来,就是什么算法在哪一个数据集上取得了state-of-the-art 的成果,包括语音、计算机视觉和NLP、迁移学习、强化学习。在这里,你可以读懂2017机器学习领域究竟在哪些方向上取得了突破,各大前沿机构和学术大牛们在哪些方向上发力。比如,Hinton掀起深度学习革命的Capsule 网络、再到谷歌的“一个模型学习所有”“Attention is all you need”以及Facebook在机器
少了数据,我们的机器学习和深度学习模型什么也干不了。这么说吧,那些创建了数据集、让我们可以训练模型的人,都是我们的英雄,虽然这些人常常并没有得到足够的感谢。让人庆幸的是,那批最有价值的数据集后来成了「学术基准线」——被研究人员广泛引用,尤其在算法变化的对比上;不少名字则成为圈内外都耳熟能详的名称,如 MNIST、CIFAR 10 以及 Imagenet 等。
论文研究了自深度学习出现以来,预训练语言模型的算法的改进速度。使用Wikitext和Penn Treebank上超过200个语言模型评估的数据集(2012-2023年),论文发现达到设定性能阈值所需的计算大约每8个月减半一次,95%置信区间约为5到14个月,大大快于摩尔定律下的硬件增益。论文估计了增强的scaling law,这使论文能够量化算法的进展,并确定scaling模型与训练算法中的创新的相对贡献。尽管算法的快速发展和transformer等新架构的发展,在这段时间内,计算量的增加对整体性能的提高做出了更大的贡献。虽然受到有噪声的基准数据的限制,但论文的分析量化了语言建模的快速进展,揭示了计算和算法的相对贡献。
我们都知道,对于神经网络来说,参数量越大、层数越多,就代表着输出的结果越精细。当然,这也意味着许多性能优越的神经网络体积会非常庞大。比如当前的标准机器翻译架构 Transformer,一层就可能包含数百万个参数。即使是一些优化过性能和参数效率的模型(比如 EfficientNet),也仍然需要几十到几百 MB。这就使得它们的应用范围限制在机器人或者虚拟助手等领域。
「重要」 :要运行示例的最新版本,你必须从源代码安装并为示例安装一些特定要求。在新的虚拟环境中执行以下步骤:
机器之心报道 机器之心编辑部 GPT-2 这样的大规模语言模型也能学会「句法」、生成新词,然而事情真要这么简单就好了。 深度学习到底能学多深?在过去的一段时间,我们大多会用生成文本的质量来评价 GPT 等语言生成模型的表现。但与此同时,我们忽略了一个问题:那些用生成模型做的「狗屁不通文章生成器」、「满分作文生成器」到底是鹦鹉学舌(简单地记住看过的例子,并以浅显的方式重新组合),还是真的学到了复杂的语言结构? 在最近的一篇文章中,来自约翰霍普金斯大学、微软研究院等机构的研究者就提出了这样一个问题。 神经网
网络结构搜索技术近些年获得了广泛的关注,但是其搜索空间往往被限缩在元结构内部(循环单元或卷积单元等),缺乏对模型整体架构的学习。
ChatGPT已经成为家喻户晓的名字,而大语言模型在ChatGPT刺激下也得到了快速发展,这使得我们可以基于这些技术来改进我们的业务。
选自 Gluon 机器之心编译 参与:思源、李亚洲 近日,DMLC 发布了简单易用的深度学习工具箱 GluonCV 和 GluonNLP,它们分别为计算机视觉和自然语言处理提供了顶级的算法实现与基本运算。本文简要介绍了这两个工具箱,并提供了基本的使用示例,更多详细的内容请查看它们的原文档。 GluonCV 文档地址:http://gluon-cv.mxnet.io GluonNLP 文档地址:http://gluon-nlp.mxnet.io/ 自去年以来,MXNet 的动态图接口 Gluon 凭借着它的
近日,香港大学与华为诺亚方舟实验室在 ACL 2022 上联合发表了一篇工作,针对现有大规模生成式预训练语言模型的压缩需求,提出了新的量化压缩解决方案,并取得了出色的进步:分别在 GPT-2 与 BART 上实现了 14.4 倍与 13.4 倍的压缩率。他们将量化的 GPT 模型 与 BART 模型分别命名为「QuantGPT」与「QuantBART」。 作者丨陶超凡 生成式预训练语言模型 (pre-trained language models, PLM) 的规模不断扩大,极大地增加了对模型压缩的需求。尽
记性差是目前主流大型语言模型的主要痛点,比如ChatGPT只能输入4096个token(约3000个词),经常聊着聊着就忘了之前说什么了,甚至都不够读一篇短篇小说的。
长期以来,词向量一直是自然语言处理的核心表征技术。然而,其统治地位正在被一系列令人振奋的新挑战所动摇,如:ELMo、ULMFiT 及 OpenAI transformer。这些方法因证明预训练的语言模型可以在一大批 NLP 任务中达到当前最优水平而吸引了很多目光。这些方法预示着一个分水岭:它们在 NLP 中拥有的影响,可能和预训练的 ImageNet 模型在计算机视觉中的作用一样广泛。
论文链接:https://arxiv.org/pdf/1911.05507.pdf
日前,神经信息处理系统大会(NeurIPS2019)于12月8日至14日在加拿大温哥华举行,中国科学院自动化研究所及其南京人工智能芯片创新研究院联合团队在本次大会的神经网络压缩与加速竞赛(MicroNet Challenge)中获得双料冠军!
最近几年发布的AI模型,如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构,但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势,这一特性严重限制了Transformer在长序列下的应用,例如无法一次性处理一整本书,或是处理千兆像素级别的图像。
NVIDIA DGX SuperPOD在短短47分钟内训练BERT-Large,并训练GPT-2 8B,这是有史以来最大的具有8.3Bn参数的Transformer网络。
去年 6 月,来自微软的研究者提出一种新型预训练语言模型 DeBERTa,该模型使用两种新技术改进了 BERT 和 RoBERTa 模型。8 月,该研究开源了模型代码,并提供预训练模型下载。最近这项研究又取得了新的进展。
研究者称,该方法已被证明在卷积神经网络和循环神经网络上都可以获得业内最优的效果,而所用 GPU 算力有时甚至仅为此前搜索方法的 700 分之 1,这意味着单块 GPU 也可以完成任务。该研究的论文《DARTS: Differentiable Architecture Search》一经发出便引起了 Andrew Karpathy、Oriol Vinyals 等学者的关注。
选自arXiv 作者:Urvashi Khandelwal等 机器之心编译 参与:Geek AI、刘晓坤 本研究旨在回答「神经语言模型如何利用上下文信息」的问题。通过控制变量法,斯坦福的研究者实验探究了神经语言模型使用的上下文信息量、近距离和远距离的上下文的表征差异,以及复制机制对模型使用上下文的作用这三个议题。 语言模型是诸如机器翻译和总结等自然语言生成任务中的一个重要组成部分。这些任务会利用上下文(词序列)信息估计待预测单词的概率分布。近年来,一系列神经语言模型(NLM)(Graves, 2013; J
尽管取得了很多显著的成就,但训练深度神经网络(DNN)的实践进展在很大程度上独立于理论依据。大多数成功的现代 DNN 依赖残差连接和归一化层的特定排列,但如何在新架构中使用这些组件的一般原则仍然未知,并且它们在现有架构中的作用也依然未能完全搞清楚。
Myary 是一款适用于 Mac 和 iOS 平台的日记和笔记本应用程序。它提供了直观易用的界面设计,支持多种文本格式,如 Markdown、纯文本和富文本等,以及多种语言输入方式。Myary 还提供了丰富的功能和工具,如打印、导出、备份、自动保存等,方便用户管理和保护他们的数据。
BERT和GPT-2之类的深度学习语言模型(language model, LM)有数十亿的参数,互联网上几乎所有的文本都已经参与了该模型的训练,它们提升了几乎所有自然语言处理(NLP)任务的技术水平,包括问题解答、对话机器人和文档理解等。
组合范畴语法(CCG; Steedman, 2000)是一种高度词汇化的形式主义。Clark 和 Curran 2007 年提出的标准解析模型使用了超过 400 个词汇语类(或超级标记(supertag)),典型的解析器通常只包含大约 50 个词性标注。
领取专属 10元无门槛券
手把手带您无忧上云