有一份神秘的研究论文清单,据说是 Ilya Sutskever 在 2020 年交给 John Carmack 的。虽然每个人都在谈论它,但没有人见过它。
著名游戏开发者、火箭工程师和 VR 先驱 John Carmack 在一次采访中分享道,他向 OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 索要了一份关于 AI 的阅读清单。Ilya 回复了一份大约 40 篇研究论文的清单,他说:
如果你真正学会了所有这些,你就会知道今天重要内容的 90%。
这份难以捉摸的名单成为了搜索和讨论的主题,在 Ask HN 上积累了 131 条评论。很多人都想要它,所以 Carmack 在 Twitter 上发帖,表达了他希望 Ilya 能公开这份名单的希望,并指出“一份来自领军人物的权威参考书目会受到许多人的赞赏”:
但是,Ilya 尚未发布这样的列表,这让我们只能猜测。最近,一位 OpenAI 研究人员声称已经编制了这份列表,重新引发了讨论,该帖子迅速走红。
以下是里面的内容,为方便查看而分组。
核心神经网络创新
循环神经网络正则化(Recurrent Neural Network Regularization)——增强 LSTM 单元以更好地防止过度拟合。
指针网络(Pointer Networks )——用于解决离散词元(token)输出问题的新架构。
用于图像识别的深度残差学习(Deep Residual Learning for Image Recognition)——通过残差学习改进深度网络的训练。
深度残差网络中的身份映射(Identity Mappings in Deep Residual Networks)——通过身份映射增强深度残差网络。
神经图灵机(Neural Turing Machines)——将神经网络与外部存储资源相结合,以增强算法任务。
注意力就是你所需要的全部(Attention Is All You Need)——介绍仅基于注意力机制的 Transformer 架构。
专门的神经网络应用
通过扩张卷积进行多尺度上下文聚合(Multi-Scale Context Aggregation by Dilated Convolutions)——一种用于更好的语义分割的卷积网络模块。
通过联合学习对齐和翻译的神经机器翻译(Neural Machine Translation by Jointly Learning to Align and Translate )——通过同时学习对齐和翻译来改进翻译的模型。
量子化学的神经信息传递(Neural Message Passing for Quantum Chemistry)——用于学习量子化学分子图的框架。
关系 RNN(Relational RNNs )——将关系推理能力整合到标准记忆架构中的增强。
Deep Speech 2:英语和普通话的端到端语音识别(Deep Speech 2: End-to-End Speech Recognition in English and Mandarin)——用于语音识别的深度学习系统。
使用深度 CNN 进行 ImageNet 分类(ImageNet Classification with Deep CNNs)——用于对大规模图像数据进行分类的卷积神经网络。
变分有损自动编码器(Variational Lossy Autoencoder )——结合 VAE 和自回归模型来改进图像合成。
用于关系推理的简单 NN 模块(A Simple NN Module for Relational Reasoning)——旨在改善 AI 任务中的关系推理的神经模块。
理论见解和原则方法
顺序很重要:集合的序列到序列(Order Matters: Sequence to sequence for sets)——研究数据顺序对模型性能的影响。
神经网络模型的缩放定律(Scaling Laws for Neural LMs)——语言模型性能缩放定律的实证研究。
最小描述长度原则教程介绍(A Tutorial Introduction to the Minimum Description Length Principle)——模型选择和推理中的 MDL 原则教程。
通过最小化权重的描述长度来保持神经网络简单(Keeping Neural Networks Simple by Minimizing the Description Length of the Weights)——通过最小化权重描述长度来提高神经网络泛化的方法。
机器超级智能论文(Machine Super Intelligence Dissertation)——研究可计算环境中代理的最优行为。
第 434 页起:科莫格罗夫复杂度(PAGE 434 onwards: Komogrov Complexity)——全面探索柯尔莫哥洛夫复杂度,讨论其数学基础及其对信息论和计算复杂性等领域的影响。
跨学科和概念研究
量化封闭系统中复杂性的兴衰:咖啡自动机(Quantifying the Rise and Fall of Complexity in Closed Systems: The Coffee Automaton)——使用细胞自动机研究封闭系统中的复杂性。
效率和可扩展性技术
GPipe:使用管道并行对巨型神经网络进行有效训练(GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism)——一种有效训练大规模神经网络的方法。
教育材料和教程
CS231n:用于视觉识别的卷积神经网络(CS231n: Convolutional Neural Networks for Visual Recognition)——斯坦福大学关于用于视觉识别的 CNN 课程。
带注释的 Transformer(The Annotated Transformer )——带注释的 Transformer 论文逐行实现。代码可在此处获取。
复杂动力学第一定律(The First Law of Complexodynamics)——博客文章从计算角度讨论了系统复杂性的度量。
RNN 的不合理有效性(The Unreasonable Effectiveness of RNNs )——博客文章展示了 RNN 的多功能性。
理解 LSTM 网络(Understanding LSTM Networks )——博客文章提供 LSTM 网络的详细解释。
领取专属 10元无门槛券
私享最新 技术干货