首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大规模学习该如何权衡得失?解读NeurIPS 2018时间检验奖获奖论文

作者|谷歌 AI 苏黎世研究中心

项目经理 Anna Ukhanova

译者|姚佳灵

编辑|Debra

AI 前线导读:机器学习进展飞速,有时甚至觉得,超过 2 年的想法或算法就过时了,或者就被其他更好的东西所取代。然而有时候,有些旧想法,即使科学界的大部分人已经远离它们,它们仍然很重要。这通常是个上下文的问题:一个在特定的上下文中看起来已经穷途末路的想法也许在另一个上下文中变得极其成功。在深度学习的特定情况下,可用数据和计算能力的增长重新引起了人们对该领域的兴趣,并显著地影响了研究方向。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)

NIPS 2007 年的论文 《大规模学习的权衡(The Trade-Off of Large Scale Learning)》 (https://leon.bottou.org/publications/pdf/nips-2007.pdf)是由 Léon Bottou(当时在 NEC 实验室 工作,现在在Facebook AI研究中心 工作)和 Olivier Bousquet(就职于 苏黎世谷歌 AI研究中心 https://ai.google/research/join-us/zurich)共同完成的,该论文是这种现象的绝佳实例。作为 NeurIPS 2018 经典论文奖的获奖论文,这项开创性的工作研究了机器学习中的数据和计算之间的相互作用。研究结果显示,即使受到计算能力的限制,仍然可以使用大型数据集,在多个独立训练样本上进行少量的计算比在数据的子集上进行大量的计算更有效率。这证明了 随机梯度下降法 这个旧算法的强大,如今,几乎所有的深度学习应用都使用了该算法。本文是 AI 前线第 62 篇论文导读,我们将带大家一起回顾这篇经典论文。

优化和扩展挑战

很多机器学习算法都可以看成是以下两个要素的组合:

模型:一个可以用于拟合数据的函数集合。

优化算法:指明如何在该函数集合中找到最佳函数。

回望 90 年代,机器学习中使用的数据集比如今使用的要小很多,尽管人工神经网络已经取得一些成功,但它们仍然被认为难以训练。在 2000 年初,随着“核机器(Kernel Machines https://en.wikipedia.org/wiki/Kernel_method)”(特别是 SVM https://en.wikipedia.org/wiki/Support_vector_machine)的引入,神经网络逐渐落伍。同时,大家的注意力从一直用于训练神经网络的优化算法(随机梯度下降法)转移到了用于核机器的那些算法上(quadratic programming,二次规划)。一个重要的区别是,在前一种情况下,一次使用一个训练样本执行梯度步骤(这被称为“随机”),而在后一种情况下,每次迭代时都会用到所有训练样本(这被称为“批处理”)。

随着训练集规模的增长,优化算法处理大量数据的效率成为瓶颈。比如,在二次规划的情况下,运行时间至少是样本数量的二次方。换句话说,如果训练集的规模翻倍,那么训练时间至少要增加 4 倍。因此,为了把这些算法扩展到更大的训练集,人们花费了大量的精力(请参看 大规模核机器 https://mitpress.mit.edu/books/large-scale-kernel-machines)。

具有神经网络训练经验的人都知道,随机梯度下降法相对更容易扩展到大型数据集,但是,遗憾的是,它的收敛速度非常慢(要进行大量迭代才能达到与批处理算法的精度),因此,还不清楚这是否是扩展问题的解决方案。

随机算法扩展性更好

事实上,在机器学习的背景中,优化成本函数所需的迭代次数不是主要问题:把模型优化至完美是没有意义的,因为基本上都会“过拟合”训练数据。那么,为什么不减少优化模型所需的计算量,而把精力投入到处理更多的数据呢?

Léon 和 Olivier 的工作是对该现象的正式研究:他们考虑访问大量的数据,并假设限制因素是计算,研究结果表明,最好对每个独立训练样本进行最少量的计算(因而可以处理更多样本),而不是对较少量的数据进行大量的计算。

在这个过程中,他们还证明,在各种可能的优化算法中,随机梯度下降法是最佳算法。这已被很多实验所证实,并引起了人们对在线优化算法的兴趣。如今,在线优化算法已广泛应用在机器学习中。

未解之谜

在随后的几年中,随机梯度下降法在凸优化和非凸优化(特别适合于深度学习)场景中发展出了许多变体。现在最常见的变体是所谓的“小批量(mini-batch)”随机梯度下降法,每次迭代只考虑少量的训练样本(大概是 10 到 100 个之间),在训练集上执行多遍,并利用一些聪明的技巧来适当地扩展梯度。大多数机器学习库提供这类算法的默认实现,它被认为是深度学习的支柱之一。

尽管该分析为理解这个算法的特性提供了坚实的基础,但是,深度学习令人难忘甚至有时令人惊讶的成功不断地向科学界提出更多的问题。具体来说,尽管该算法在泛化深度网络特性中的作用已经被反复证明,但我们仍然未能充分理解。这意味着,还有很多有趣的问题等待我们探索,这些问题有助于我们更好地理解目前在使用的算法,并在未来开发出更高效的算法。

10 年前,Léon 和 Olivier 在合作中提出的观点显著推动了现如今已成为机器学习系统主力、造福我们日常生活的算法的发展。我们衷心祝贺两位作者获得这一当之无愧的奖项。

https://ai.googleblog.com/2018/12/the-neurips-2018-test-of-time-award.html

活动推荐

如果你喜欢这篇文章,或希望看到更多类似优质报道,记得给我留言和点赞哦!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181216B0HXWA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券