首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    常用测试集带来过拟合?你真的能控制自己不根据测试集调参吗

    选自arXiv 机器之心编译 在验证集上调优模型已经是机器学习社区通用的做法,虽然理论上验证集调优后不论测试集有什么样的效果都不能再调整模型,但实际上模型的超参配置或多或少都会受到测试集性能的影响。因此研究社区可能设计出只在特定测试集上性能良好,但无法泛化至新数据的模型。本论文通过创建一组真正「未见过」的同类图像来测量 CIFAR-10 分类器的准确率,因而充分了解当前的测试集是否会带来过拟合风险。 1 引言 过去五年中,机器学习成为一块实验田。受深度学习研究热潮的驱动,大量论文围绕这样一种范式——新型学习

    04

    深度学习模型陷阱:哈佛大学与OpenAI首次发现“双下降现象”

    近日,哈佛大学Preetum Nakkiran等研究者与人工智能研究组织OpenAI的研究者Ilya Sutskever最新研究发现,包括卷积神经网络(Convolutional Neural Networks,CNNs)、残差网络(Residual Networks,ResNets)与Transformers的许多现代深度学习模型均会出现“双下降现象”(Double Descent Phenomenon):随着模型大小、数据大小或训练时间的增加,性能先提高,接着变差,然后再提高。其峰值出现在一个“临界区”,即当模型几乎无法拟合训练集时。当增加神经网络中的参数数目时,测试误差最初会减小、增大,而当模型能够拟合训练集时测试误差会经历第二次下降。这种效果通常可以通过仔细的正则化来避免。虽然这种行为似乎相当普遍,但我们尚未完全了解其发生的原因,因此这是一个值得进一步研究的重要研究方向。

    05

    【GPT总结】Why Can GPT Learn In-Context?

    这篇论文提出了一种新的方法,利用大型预训练语言模型展示了惊人的上下文学习能力。通过少量的示范输入-标签对,它们可以在没有参数更新的情况下预测未见输入的标签。尽管在性能上取得了巨大成功,但其工作机制仍然是一个开放问题。在这篇论文中,作者将语言模型解释为元优化器,并将上下文学习理解为隐式微调。在理论上,他们发现Transformer的注意力具有梯度下降的双重形式。基于此,他们将上下文学习理解为以下过程:GPT首先根据示范示例生成元梯度,然后将这些元梯度应用于原始的GPT以构建一个ICL模型。通过在真实任务上全面比较上下文学习和显式微调的行为,提供了支持我们理解的实证证据。实验结果表明,从多个角度来看,上下文学习的行为与显式微调类似。受Transformer注意力和梯度下降之间的双重形式启发,作者设计了一种基于动量的注意力机制,类比于带有动量的梯度下降。改进后的性能进一步支持了我们的理解,更重要的是,展示了利用我们的理解进行未来模型设计的潜力。该论文的代码可在\url{https://aka.ms/icl}上找到。

    01
    领券