Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >7 Papers | Hinton、李飞飞各有新作;深度学习硬件性能评价

7 Papers | Hinton、李飞飞各有新作;深度学习硬件性能评价

作者头像
代码医生工作室
发布于 2019-07-30 08:24:21
发布于 2019-07-30 08:24:21
4520
举报
文章被收录于专栏:相约机器人相约机器人

参与:一鸣、思源

本周 Hinton、李飞飞都有新论文面世。Hinton 等提出了新的优化算法,而李飞飞等在视频预测任务上实现了新的 SOTA 模型。此外还有自然语言理解评价方法、文本+图像数据融合任务的综述,以及对深度学习的硬件进行评价的文章等。

目录:

  1. Lookahead Optimizer: k steps forward, 1 step back
  2. Eidetic 3D LSTM: A Model for Video Prediction and Beyond
  3. Discourse-Based Evaluation of Language Understanding
  4. Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods
  5. Neural Point-Based Graphics
  6. Benchmarking TPU, GPU, and CPU Platforms for Deep Learning
  7. Unifying Logical and Statistical AI with Markov Logic

1.标题:Lookahead Optimizer: k steps forward, 1 step back

  • 作者:Michael R. Zhang、James Lucas、Geoffrey Hinton、Jimmy Ba
  • 论文链接:https://arxiv.org/pdf/1907.08610v1
  • Keras 实现:https://github.com/bojone/keras_lookahead
  • PyTorch 实现:https://github.com/alphadl/lookahead.pytorch

摘要:这篇论文提出 Lookahead 算法与已有的方法完全不同,它迭代地更新两组权重。直观来说,Lookahead 算法通过提前观察另一个优化器生成的「fast weights」序列,来选择搜索方向。该研究发现,Lookahead 算法能够提升学习稳定性,不仅降低了调参需要的功夫,同时还能提升收敛速度与效果。研究表示,Lookahead 在残差网络(ImageNet)、Transformer(WMT 2014)等模型上,算法的性能显著优于 SGD 和 Adam。

推荐:首先这篇论文表示 Lookahead 可以大幅度提升 Adam 等优化器的效果,且作者包括图灵奖得主 Geoffrey Hinton 和 Adam 原论文作者 Jimmy Ba,所以非常值得我们一读。此外,因为算法实现起来并不困难,而且在各种任务上都能有很稳定的表现,因此也非常值得我们一试。

如上左图展示了 Lookahead 的两种参数更新方法:Fast 和 Slow。相比蓝色线的标准 SGD,红色线的 Slow weights 在接近收敛时能探索到更好的最优解。右图展示了 Lookahead 的伪代码,我们可以看到,快更新相当于做了一系列实验,然后慢更新再根据实验结果选一个好方向。

2.标题:Eidetic 3D LSTM: A Model for Video Prediction and Beyond

  • 作者:Yunbo Wang 、Lu Jiang 、Ming-Hsuan Yang 、Li-Jia Li 、Mingsheng Long 、Li Fei-Fei
  • 论文地址:https://openreview.net/pdf?id=B1lKS2AqtX
  • 实现链接:https://github.com/metrofun/E3D-LSTM

摘要:时空预测尽管被认为是一种有效的自监督特征学习策略,但目前仍很少体现出在视频预测之外的效果。这是因为,学习短期帧的依赖和长期的高级关系的表示非常困难。研究人员在这篇论文中提出了一个新的模型,名为「Eidetic 3D LSTM (E3D-LSTM)」。模型可以将三维的卷积信息融合在 RNN 中。这种内嵌的三维卷积层使得 RNN 具有局部的动作敏感性,并可以使机器单元储存更好的短期特征。

对于长期关系,研究人员使用门控制自注意力单元,使得现在的记忆状态和历史记录进行交互。研究人员称这种记忆转移机制为「eidetic」,因为它能够使模型「回忆」起多个时间步前记忆的信息。研究人员首先在广泛使用的视频预测数据集上进行了测试,结果达到了 SOTA。然后,他们展示了模型在早期活动检测(early activity recognition)任务上的表现。模型能够在观察少量帧数的视频后推断出发生了什么,以及将要发生什么。这个任务和视频预测中的建模动作意图和趋势的任务很好地配合。

推荐:视频预测任务新 SOTA,作者包括李飞飞等,团队包括清华大学、斯坦福大学、谷歌大脑等的研究人员。

如上展示了三种将三维卷积融合到循环神经网络的方式,蓝色箭头表示使用三维卷积的数据转换路径。a 和 b 分别在时空 LSTM 的前后加上三维卷积运算,它们本质上没有什么区别,而且将三维卷积放在 LSTM 单元外效果并不好。c 则展示了 E3D-LSTM 的编码器解码器结构,它将三维卷积嵌入到 LSTM 单元内,从而将卷积特征用于循环网络的隐状态。

3.标题:Discourse-Based Evaluation of Language Understanding

  • 作者:Damien Sileo、Tim Van-de-Cruys、Camille Pradel、Philippe Muller
  • 论文链接:https://arxiv.org/pdf/1907.08672.pdf
  • 实现地址:https://github.com/synapse-developpement/DiscEval

摘要:在本文中,研究者介绍了 DiscEval,它包含 11 个评估数据集,并以语篇为重点,可用于英语自然语言理解的评估。他们证明,语篇评估任务被忽视了,并且自然语言推理(NLI)预训练可能无法学习到真正的通用型表征。DiscEval 还可以用作多任务学习系统的补充训练数据,它是公开可用的,同时提供收集和预训练数据集的代码。

推荐:本文总结了自然语言理解的评估方法,可作为评价语言模型性能的重要参考。

表 1:DiscEval 的文本分类数据集。

4.标题:Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods

  • 作者:Aditya Mogadala、Marimuthu Kalimuthu、Dietrich Klakow
  • 论文链接:https://arxiv.org/pdf/1907.09358v1.pdf

摘要:近年来,由于机器学习计算机视觉和神经语言处理等多学科社区日益高涨的兴趣,视觉与语言任务的整合已经取得了显著的进展。在这篇综述文章中,研究者重点讲述了十项不同的视觉与语言整合任务,并就这些任务的问题界定、方法、现有数据集、评估度量以及以相应 SOTA 方法所实现结果的对比进行详解。本次调研较以往更为深入,先前的研究要么针对特定任务,要么仅集中于图像或视频等单一类型的内容。最后,研究者探讨了未来视觉与语言研究整合可能的发展方向。

推荐:目前,文本和图像数据融合模型的论文综述依然不多,本文不失为系统理解这一新兴机器学习分支领域的优秀论文。

图 1:论文中展示的十种需要融合文本和图像数据的机器学习任务。

5.标题:Neural Point-Based Graphics

  • 作者:Kara-Ali Aliev、Dmitry Ulyanov、Victor Lempitsky
  • 论文链接:https://arxiv.org/pdf/1906.08240.pdf
  • 实现地址:https://github.com/WangYueFt/dgcnn

摘要:在本文中,研究者提出了一种新的基于点的复杂场景建模方法。该方法使用原始点云作为场景的几何表征,并且利用能够编码局部几何结构和外观的可学习神经描述符来增大每个点。深度渲染网络与描述符同时进行学习,这样从新视点将点云的光栅部分穿过这个网络,从而获得场景的新视图。研究表明,这种新方法可用于建模复杂场景、得到这些场景的逼真视图,同时能够避免显式表面估计和网格化。具体来讲,使用手持商用 RGB-D 传感器和标准 RGB 摄像头可以在场景扫描任务中获得令人信服的结果。

推荐:仅用点云和视频结合就完成了实时动态的视频渲染,还不需要特别昂贵的景深相机,这样新奇的论文值得读者阅读。

论文对图像的渲染效果和其他方法及 Ground Truth 的对比。第二行中间为论文的方法,最右侧为 Ground Truth。肉眼可见,论文的方法效果更好。

6.标题:Benchmarking TPU, GPU, and CPU Platforms for Deep Learning

  • 作者:Yu (Emma) Wang、Gu-Yeon Wei、David Brooks
  • 论文链接:https://arxiv.org/pdf/1907.10701.pdf

摘要:为了系统地对深度学习平台进行基准测试,研究者提出了 ParaDnn,这是一个用于深度学习的参数化基准测试套件,它能够为全连接(FC)、卷积(CNN)和循环(RNN)神经网络生成端到端的模型。研究者使用 6 个实际模型对 Google 的云 TPU v2/v3、NVIDIA 的 V100 GPU,以及 Intel 的 Skylake CPU 平台进行了基准测试。他们深入研究了 TPU 的架构,揭示了它的瓶颈,并重点介绍了能够用于未来专业系统设计的宝贵经验。研究者还提供了平台的全面对比,发现每个平台对某些类型的模型都有自己独特的优势。最后,他们量化了专用的软件堆栈对 TPU 和 GPU 平台提供的快速性能改进。

有关深度学习算法的基准测试论文已是汗牛充栋,但对硬件平台进行测试的论文很少见。通过本论文,读者可系统了解各种机器学习训练的平台特性,并针对自身的需求选择。

上表展示了所有基准测试得出来的结果与见解,它测试了不同神经网络结构在不同硬件平台上的效果。每一条观察结果或结论都有具体的实验图标支持,读者可详细查阅原论文。

7.标题:Unifying Logical and Statistical AI with Markov Logic

  • 作者:Pedro Domingos、Daniel Lowd
  • 论文链接:https://homes.cs.washington.edu/~pedrod/papers/cacm19.pdf

摘要:多年来,人工智能的主要两大分支为:逻辑人工智能和统计人工智能。逻辑人工智能使用一等逻辑和相关表示捕捉复杂关系和知识。然而,在许多应用中,逻辑人工智能在处理不确定性和噪声时较为脆弱。统计人工智能则使用概率表示,如概率图模型,来捕捉不确定性。然而,图模型只能表示显式的全局信息,无法处理关系领域。本文提出一种名为马尔科夫逻辑的方法,结合两种模型。

推荐:Keras 之父日前表示,目前机器学习没能解决人工智能的基本问题。本论文值得想要了解逻辑人工智能的读者阅读。

虽然从属于 AI 这个大领域,但如上所示逻辑方法与统计方法在不同的子领域上都有自己的一套方法。本文尝试通过马尔可夫逻辑统一这两种方法,并利用它们各自的优势,感兴趣的读者可详细阅读论文。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
7 Papers | 李飞飞新论文;深度学习代码搜索综述;Adobe用GAN生成动画
论文 1:SummAE: Zero-Shot Abstractive Text Summarization using Length-Agnostic Auto-Encoders
机器之心
2019/10/15
6980
7 Papers | 李飞飞新论文;深度学习代码搜索综述;Adobe用GAN生成动画
7 Papers & Radios | 王者荣耀AI绝悟完全体;目标检测新范式
论文 1:Towards Playing Full MOBA Games with Deep Reinforcement Learning
机器之心
2020/12/03
5480
7 Papers & Radios | 王者荣耀AI绝悟完全体;目标检测新范式
论文合集 | 李飞飞新论文:深度学习代码搜索综述;Adobe用GAN生成动画(附地址)
本周有李飞飞、朱玉可等的图像因果推理和吴恩达等的 NGBoost 新论文,同时还有第一个深度学习代码搜索综述论文、Adobe 用 GAN 生成角色的动画、Facebook 和 HuggingFace 推出的新代码库等。
数据派THU
2019/10/22
6230
论文合集 | 李飞飞新论文:深度学习代码搜索综述;Adobe用GAN生成动画(附地址)
深度学习十年后是撞墙了吗?Hinton、LeCun、李飞飞可不这么认为
选自venturebeat 作者:Sharon Goldman 机器之心编译 编辑:蛋酱、杜伟 深度学习未来会更好还是走下坡路?AI 圈先驱们展开了设想。 自 2012 年,以 AlexNet 为代表的深度学习技术突破开始,至今已有 10 年。 10 年后,如今已经成为图灵奖得主的 Geoffrey Hinton、Yann LeCun,ImageNet 挑战赛的主要发起人与推动者李飞飞如何看待过去十年的 AI 技术突破?又对接下来十年的技术发展有什么判断? 近日,海外媒体 VentureBeat 的一篇专访
机器之心
2022/09/20
3150
深度学习十年后是撞墙了吗?Hinton、LeCun、李飞飞可不这么认为
7 Papers | 深度强化学习综述、图灵71年前未发表的智能机器论文
1.标题:Modern Deep Reinforcement Learning Algorithms
机器之心
2019/07/12
5470
7 Papers & Radios | ACL 2020获奖论文;贝叶斯深度学习综述
论文 1:Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
机器之心
2020/07/14
8090
7 Papers & Radios | ACL 2020获奖论文;贝叶斯深度学习综述
7 Papers & Radios | 邱锡鹏Transformer变体论文综述;AI六小时内设计一款芯片
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周的重要论文包括复旦大学邱锡鹏教授团队发布的关于 Transformer 变体的论文综述以及谷歌用 AI 在六小时内自动完成芯片布局设计的最新方案。 目录: Scaling Local Self-Attention for Parameter Efficient Visual Backbones X-volution: On the Unification of Convolution and Self-atten
机器之心
2023/03/29
4700
7 Papers & Radios | 邱锡鹏Transformer变体论文综述;AI六小时内设计一款芯片
7 papers | Quoc V. Le、何恺明等新论文;用进化算法设计炉石
论文 1:Self-training with Noisy Student improves ImageNet classification
机器之心
2019/11/18
8040
7 papers | Quoc V. Le、何恺明等新论文;用进化算法设计炉石
7 papers | 贾佳亚等人3D目标检测新论文;美国20年AI技术路线图
2. A 20-Year Community Roadmap for Artificial Intelligence Research in the US
机器之心
2019/08/20
6870
7 Papers | 2019安卓手机AI性能评测;谷歌T5预训练模型刷榜GLUE;自动驾驶论文综述
论文 1:AI Benchmark: All About Deep Learning on Smartphones in 2019
机器之心
2019/10/30
6460
7 Papers | 2019安卓手机AI性能评测;谷歌T5预训练模型刷榜GLUE;自动驾驶论文综述
7 Papers | 清华天机芯片;非侵入式脑机接口;ACL 2019论文
1. 标题:Towards artificial general intelligence with hybrid Tianjic chip architecture
机器之心
2019/08/06
6550
7 Papers | 清华天机芯片;非侵入式脑机接口;ACL 2019论文
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周论文包括谷歌大牛 Jeff Dean 发文探索深度学习发展的黄金十年;Google Research 的研究者们提出了一种称为「自洽性(self-consistency)」的简单策略,显著提高了大型语言模型的推理准确率。 目录 A Golden Decade of Deep Learning: Computing Systems & Applications  Domain Generalization via
机器之心
2022/04/18
4970
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
7 Papers | 腾讯王者荣耀绝悟AI;ICLR高分论文Reformer
论文 1:Mastering Complex Control in MOBA Games with Deep Reinforcement Learning
机器之心
2019/12/31
2.6K0
7 Papers | 腾讯王者荣耀绝悟AI;ICLR高分论文Reformer
7 papers | 3篇综述论文,全面了解机器阅读理解、图表征学习等
1.标题:Machine Learning Testing: Survey, Landscapes and Horizons
机器之心
2019/07/12
7080
7 Papers & Radios | 超图表示学习新框架HNHN;GNN的泛化与表示极限
论文 1:Implicit Neural Representations with Periodic Activation Functions
机器之心
2020/06/29
9900
7 Papers & Radios | 超图表示学习新框架HNHN;GNN的泛化与表示极限
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。
机器之心
2024/02/26
1930
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
7 Papers & Radios | MIT爆出苹果M1芯片重大漏洞;斯坦福CS博士新作:BERT单节点训练最快
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周重要论文包括:斯坦福大学提出一种快速、内存高效的注意力算法,被命名为 FlashAttention,通过减少 GPU 内存读取 / 写入,FlashAttention 的运行速度比 PyTorch 标准注意力快 2-4 倍,所需内存减少 5-20 倍;来自 MIT CSAIL 的学者们介绍了一种可禁用苹果 M1 芯片指针身份验证机制的新型硬件攻击,名为「PACMAN」,这种攻击能够阻止 M1 芯片检测到软件漏洞攻
机器之心
2022/06/20
5120
7 Papers & Radios | MIT爆出苹果M1芯片重大漏洞;斯坦福CS博士新作:BERT单节点训练最快
7 Papers & Radios | 吴尚哲新作:从视频中学习可变形3D对象;谷歌提出基于GAN的神经视频压缩
论文 1:DOVE: Learning Deformable 3D Objects by Watching Videos
机器之心
2021/08/06
5150
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周重要论文包括腾讯深度学习推荐系统首次入选 OSDI 顶会;罗彻斯特大学和 Adobe Research 的研究者提出新模型 CM-GAN,可以修复大面积缺失图像。 目录: Ekko: A Large-Scale Deep Learning Recommender System with Low-Latency Model Update   Wave equations estimates and the nonl
机器之心
2022/08/25
3370
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
7 papers | 对抗样本前,BERT也不行;AutoML的商业实践综述
1.标题:Probing Neural Network Comprehension of Natural Language Arguments
机器之心
2019/07/24
7040
7 papers | 对抗样本前,BERT也不行;AutoML的商业实践综述
推荐阅读
7 Papers | 李飞飞新论文;深度学习代码搜索综述;Adobe用GAN生成动画
6980
7 Papers & Radios | 王者荣耀AI绝悟完全体;目标检测新范式
5480
论文合集 | 李飞飞新论文:深度学习代码搜索综述;Adobe用GAN生成动画(附地址)
6230
深度学习十年后是撞墙了吗?Hinton、LeCun、李飞飞可不这么认为
3150
7 Papers | 深度强化学习综述、图灵71年前未发表的智能机器论文
5470
7 Papers & Radios | ACL 2020获奖论文;贝叶斯深度学习综述
8090
7 Papers & Radios | 邱锡鹏Transformer变体论文综述;AI六小时内设计一款芯片
4700
7 papers | Quoc V. Le、何恺明等新论文;用进化算法设计炉石
8040
7 papers | 贾佳亚等人3D目标检测新论文;美国20年AI技术路线图
6870
7 Papers | 2019安卓手机AI性能评测;谷歌T5预训练模型刷榜GLUE;自动驾驶论文综述
6460
7 Papers | 清华天机芯片;非侵入式脑机接口;ACL 2019论文
6550
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
4970
7 Papers | 腾讯王者荣耀绝悟AI;ICLR高分论文Reformer
2.6K0
7 papers | 3篇综述论文,全面了解机器阅读理解、图表征学习等
7080
7 Papers & Radios | 超图表示学习新框架HNHN;GNN的泛化与表示极限
9900
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
1930
7 Papers & Radios | MIT爆出苹果M1芯片重大漏洞;斯坦福CS博士新作:BERT单节点训练最快
5120
7 Papers & Radios | 吴尚哲新作:从视频中学习可变形3D对象;谷歌提出基于GAN的神经视频压缩
5150
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
3370
7 papers | 对抗样本前,BERT也不行;AutoML的商业实践综述
7040
相关推荐
7 Papers | 李飞飞新论文;深度学习代码搜索综述;Adobe用GAN生成动画
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档