首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Gradient Boosting梯度提升-GBDT与XGBoost解析及应用

集成学习是机器学习算法中地位非常重要的一类算法, 其拥有理论基础扎实、易扩展、可解释性强等特点, 其核心思想是, 使用弱学习器(如线性模型、决策树等)进行加权求和, 从而产生性能较为强大的强学习器. 若按照指导弱学习器进行学习的理论基础进行分类的话, 集成学习的算法可分为两大类: 1. 基于偏差方差分解和bagging(bootstrap aggregating, 有放回抽样与集成)进行弱学习器学习的算法, 其典型代表是RF(Random Forest, 随机森林); 2. 基于梯度下降和boosting [1](提升)使弱学习器对前序产生的模型的不足之处进行改进, 以达到提升强学习器能力的效果, 其典型代表是AdaBoost(Adaptive Boosting, 自适应提升), GBDT(Gradient Boosting Decision Tree, 梯度提升决策树). 本文主要的阐述对象是第二类, 即基于梯度下降和boosting的算法, 具体分为如下章节:

02

训练神经网络的五大算法:技术原理、内存与速度分析

【新智元导读】 训练神经网络的算法有成千上万个,最常用的有哪些,哪一个又最好?作者在本文中介绍了常见的五个算法,并从内存和速度上对它们进行对比。最后,他最推荐莱文贝格-马夸特算法。 用于神经网络中执行学习过程的程序被称为训练算法。训练算法有很多,各具不同的特征和性能。 问题界定 神经网络中的学习问题是以损失函数f的最小化界定的。这个函数一般由一个误差项和一个正则项组成。误差项评估神经网络如何拟合数据集,正则项用于通过控制神经网络的有效复杂性来防止过拟合。 损失函数取决于神经网络中的自适应参数(偏差和突触权值

09

《机器学习》(入门1-2章)

这篇笔记适合机器学习初学者,我是加入了一个DC算法竞赛的一个小组,故开始入门机器学习,希望能够以此正式进入机器学习领域。 在网上我也找了很多入门机器学习的教程,但都不让人满意,是因为没有一个以竞赛的形式来进行教授机器学习的课程,但我在DC学院上看到了这门课程,而课程的内容设计也是涵盖了大部分机器学习的内容,虽然不是很详细,但能够系统的学习,窥探机器学习的“真身”。 学完这个我想市面上的AI算法竞赛都知道该怎么入手了,也就进入了门槛,但要想取得不错的成绩,那还需努力,这篇仅是作为入门课已是足够。虽然带有点高数的内容,但不要害怕,都是基础内容,不要对数学产生恐慌,因为正是数学造就了今天的繁荣昌盛。

03

Jacobin和Hessian矩阵

有时我们需要计算输入和输出都为向量和函数的所有偏导数。包含所有这样的偏导数的矩阵被称为Jacobian矩阵。具体来说,如果我们有一个函数 , 的Jacobian矩阵 定义为 。有时,我们也对导数的导数感兴趣,即二阶导数(second derivative)。例如,有一个函数 , 的一阶导数(关于 )关于 的导数记为 为 。二阶导数告诉我们,一阶导数(关于 )关于 的导数记为 。在一维情况下,我们可以将 为 。二阶导数告诉我们,一阶导数如何随着输入的变化而改变。它表示只基于梯度信息的梯度下降步骤是否会产生如我们预期那样大的改善,因此它是重要的,我们可以认为,二阶导数是对曲率的衡量。假设我们有一个二次函数(虽然实践中许多函数都是二次的,但至少在局部可以很好地用二次近似),如果这样的函数具有零二阶导数,那就没有曲率,也就是一条完全平坦的线,仅用梯度就可以预测它的值。我们使用沿负梯度方向下降代销为 的下降步,当该梯度是1时,代价函数将下降 。如果二阶导数是正的,函数曲线是向上凹陷的(向下凸出的),因此代价函数将下降得比 少。

02
领券