首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

学界 | DeepMind提出关系RNN:记忆模块RMC解决关系推理难题

摘要:基于记忆的神经网络通过长期记忆信息来建模时序数据。但是,目前尚不清楚它们是否具备对记忆信息执行复杂关系推理的能力。在本论文中,我们首先确认了标准记忆架构在执行需要深入理解实体连接方式的任务(即涉及关系推理的任务)时可能会比较困难。然后我们利用新的记忆模块 Relational Memory Core(RMC)改进这些缺陷,RMC 使用 Multi-head 点积注意力令记忆相互影响。最后,我们在一系列任务上对 RMC 进行测试,这些任务可从跨序列信息的更强大关系推理中受益,测试结果表明在强化学习领域(如 Mini PacMan)、程序评估和语言建模上获得了很大进步,在 WikiText-103、Project Gutenberg 和 GigaWord 数据集上获得了当前最优的结果。

02
您找到你想要的搜索结果了吗?
是的
没有找到

【论文解读】大模型算法发展

论文研究了自深度学习出现以来,预训练语言模型的算法的改进速度。使用Wikitext和Penn Treebank上超过200个语言模型评估的数据集(2012-2023年),论文发现达到设定性能阈值所需的计算大约每8个月减半一次,95%置信区间约为5到14个月,大大快于摩尔定律下的硬件增益。论文估计了增强的scaling law,这使论文能够量化算法的进展,并确定scaling模型与训练算法中的创新的相对贡献。尽管算法的快速发展和transformer等新架构的发展,在这段时间内,计算量的增加对整体性能的提高做出了更大的贡献。虽然受到有噪声的基准数据的限制,但论文的分析量化了语言建模的快速进展,揭示了计算和算法的相对贡献。

00

有时抄个1000词,有时自己发挥,新研究揭示GPT到底是怎么写作文的

机器之心报道 机器之心编辑部 GPT-2 这样的大规模语言模型也能学会「句法」、生成新词,然而事情真要这么简单就好了。 深度学习到底能学多深?在过去的一段时间,我们大多会用生成文本的质量来评价 GPT 等语言生成模型的表现。但与此同时,我们忽略了一个问题:那些用生成模型做的「狗屁不通文章生成器」、「满分作文生成器」到底是鹦鹉学舌(简单地记住看过的例子,并以浅显的方式重新组合),还是真的学到了复杂的语言结构? 在最近的一篇文章中,来自约翰霍普金斯大学、微软研究院等机构的研究者就提出了这样一个问题。 神经网

01
领券