首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

吴恩达 —— 深度学习 Course 1 笔记

“回归”问题尝试把输入变量映射到一些连续的函数上,预测连续的输出结果;“分类”问题尝试把输入变量映射到离散的类别当中,预测离散的输出结果。 以下是一些监督学习的例子: ?...吴恩达的矩阵表示法:用列向量表示一个样本,因此 X.shape==(n_x,m),n_x 表示特征数,m 是样本大小。 ? ?...2.14 向量化实现logistic回归的完整流程: 左边是for循环的一次梯度下降,右边是向量化的1000次梯度下降: 注意点:在右边的向量化中,np.dot(a,b) 是按照矩阵乘法的运算进行的...Leaky ReLU(带泄露的修正线性单元): 优点:解决了ReLU的有一半梯度为0的问题;缺点:需要调参来找到一个好的缓慢下降的参数,不常用。...---- [4] Week4:深层神经网络 4.1 深层神经网络的表示 ? 4.2 深层网络中的前向传播 ? 4.3 核对矩阵的维数 核对矩阵维数可以帮助我们检查算法是否正确: ?

85180

4 多变量线性回归(Linear Regression with Multiple Variables)

=1) 4.3 梯度下降实践1-特征值缩放(Gradient Descent in Practice I - Feature Scaling) 在应用梯度下降算法实践时,由于各特征值的范围不一,可能会影响代价函数收敛速度...左图中呈现的图像较扁,相对于使用特征缩放方法的右图,梯度下降算法需要更多次的迭代。 为了优化梯度下降的收敛速度,采用特征缩放的技巧,使各特征值的范围尽量一致。...=1) 4.3 梯度下降实践1-特征值缩放(Gradient Descent in Practice I - Feature Scaling) 在应用梯度下降算法实践时,由于各特征值的范围不一,可能会影响代价函数收敛速度...左图中呈现的图像较扁,相对于使用特征缩放方法的右图,梯度下降算法需要更多次的迭代。 为了优化梯度下降的收敛速度,采用特征缩放的技巧,使各特征值的范围尽量一致。...X': 在 Octave 中表示矩阵 X 的转置,即 XT 下表列出了正规方程法与梯度下降算法的对比 条件 梯度下降 正规方程

79630
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【机器学习】浅谈正规方程法&梯度下降

    选读 正规方程法(最小二乘)与梯度下降法都是为了求解线性回归的最优参数,但是不同的是正规方程法只需要一步就可以得到代价函数最优点,而梯度下降则是迭代下降,看起来似乎正规方程法要好得多,但实际梯度下降使用场景更多...,下面我们介绍这两种算法以及优缺点 一、梯度下降 1.1 一个参数 我们从最简单的线性方程解释,后面推广到的多个参数的方程 典型的房价预测问题 我们假设其数据模型为线性回归模型,方程如下...),所以这里的方程 也可以表示为 (即求导数)。...所在的代价函数区间是单调递减时的如图(蓝线标记),此时 图片 为 减去一个负数, 往右边退(向代价函数最小值靠近) 1.3学习率 \alpha 有时我们的迭代方程下降时,可能很缓慢, 需要走很多步...据范围分别是是【0~1000,0 ~5】或者【-0.00004 ~ 0.00002,10 ~ 30】, 那么在使用梯度下降算法时,他们的等高线是一个又窄又高的等高线,如下图: 在梯度下降算法中,参数更新就会如上图左右震荡

    1.5K50

    算法优化之道:避开鞍点

    这就是梯度下降算法(gradient descentalgorithm)。 每当梯度∇f(x)不等于零的时候,只要我们选择一个足够小的步长η,算法就可以保证目标函数向局部最优解前进。...当梯度∇f(x)等零向量时,该点称为临界点(critical point),此时梯度下降算法就会陷入局部最优解。...然而,对于非凸函数,仅仅考虑梯度等于零向量远远不够。来看一个简单的实例: y=x12−x22. 当x=(0,0)时,梯度为零向量,很明显此点并不是局部最小值点,因为当x=(0,ϵ)时函数值更小。...为了形式化这种直觉,我们将尝试使用一个带有噪声的梯度下降法(noisy gradient descent) y=x−η∇f(x)+ϵ. 这里ϵ是均值为0的噪声向量。...当存在退化鞍点,或者有伪局部最小值点时,我们又该如何使优化算法工作呢?我们希望有更多的研究者对这类问题感兴趣!

    1.5K30

    清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!

    为了实现这一目标,研究者仔细分析了Transformer中激活和梯度的具体结构,为它们提出专用的量化器。 对于前向传播,研究者确定了异常值的挑战,并提出了Hadamard量化器来抑制异常值。...随机数值线性代数 (RandNLA) 领域的进步,被这种量化器充分利用。 对于前向传播,研究者发现,激活中的异常值是精度下降的主要原因。...FQT的研究设计了新颖的数值格式和量化算法,可以更好地逼近全精度张量。 目前的研究前沿是4位FQT。由于梯度的数值范围很大以及从头开始训练量化网络的优化问题,FQT具有挑战性。...不幸的是,Transformers倾向于将信息存储在这些异常值中,而且这样的截断会严重损害准确性。 当训练任务是在一些新的下游任务上微调预训练模型时,异常值问题尤为明显。...高级的思路是:梯度的许多行都是如此小,对参数梯度影响很小,但浪费了大量的计算量。 另一方面,大行无法用INT4精确表示。 我们放弃掉一些小行并使用节省下来的计算能力来更准确地表示大行。

    38310

    【机器学习界的“Hello World“ 】Logistic 分类回归算法 (二元分类 & 多元分类)

    函数惩罚很大 同样的符合代价函数性质 至此,我们定义了关于单变量数据样本的分类代价函数,我们所选择的代价函数可以为我们解决代价函数为非凹函数的问题以及求解参数最优,接下来我们使用梯度下降算法来拟合...关于向量化,可以参考文章 【机器学习】向量化计算 – 机器学习路上必经路 同样的,在对于线性回归的梯度下降中,我们使用到了特征缩放数据标准化,同样的,这对于 logistic 回归算法同样适用。...数据标准化可参考文章: 【机器学习】梯度下降之数据标准化 五、高级优化算法 高级优化算法,与梯度下降相比能够大大提高 logistic 回归速度,也使得算法更加适合大型数据集机器学习问题。...除了使用梯度下降算法,还有诸多如下算法 优点如下 不需要选择学习率 \alpha ( 存在智能内循环,智能选择最佳的学习率 \alpha 下降速率快得多 缺点 太过于复杂了 在实际解决问题中,我们很少通过自己编写代码求平方根或者求逆矩阵...在logistic回归中,我们使用如下的 \theta 参数向量 (使用参数向量化) 所以在实现这些高级算法,其实是使用不同的高级库函数,虽然这些算法在调试过程中,更加麻烦,但是其速度远远大于梯度下降

    32830

    神经网络和深度学习(吴恩达-Andrew-Ng):一二周学习笔记

    为这里的梯度,这条线的斜率,在这左边是0,我们发现,只需将sigmoid函数转换为ReLU函数便能够使得"梯度下降法"运行的更快,这就是一个例子关于算法创新。其目的就是增加计算速度。...在logistic回归和神经网络,要用到的符号就是这些了。 ? 2.2 logistc回归 这是一个学习算法,用在监督学习中,输出y标签是0或1时,这是一个二分分类的问题。...当我们开始编写代码,来实现梯度下降,我们会使用到代码中变量名的约定,dw用来表示导数,作为导数的变量名,那么w:=w-α*dw(:=代表变化取值),现在我们确保梯度下降法中更新是有用的。...高度向量化的非常高效的logistc回归的梯度下降法。...numpy.dot()有两种意思: 参数为两个列表时,为求两个列表的点积,即对应相乘再加和 参数为向量与矩阵或者矩阵时,则是做矩阵的乘法 参数一个为m*n的矩阵,一个为n个元素的列表时,就结果为矩阵的每一行对应乘以列表

    2.3K10

    深度学习利器之自动微分(1)

    梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。...反向传播的关键是将潜在解决方案的模式(template)组织为一个有向图。通过反向遍历这个图,算法能够自动计算"梯度向量”,而这个"梯度向量" 能引导算法寻找越来越好的解决方案。...在这个空间中,搜索过程可以利用反向传播和随机梯度下降满足要求。 Karpathy认为,在现实世界中,大部分问题都是收集数据比明确地编写程序更容易。...从导数的原始定义中,我们可以直观看到前向差分公式为: 当h取很小的数值,比如0.000001 时,导数是可以利用差分来近似计算出来的。只需要给出函数值以及自变量的差值,数值微分算法就可计算出导数值。...但是通常情况下我们无法得到驻点的解析解,因此只能采用数值优化算法,如梯度下降法,牛顿法,拟牛顿法等等。这些数值优化算法都依赖于函数的一阶导数值或二阶导数值(包括梯度与Hessian矩阵)。

    1.3K31

    【机器学习】Logistic 分类回归算法 (二元分类 & 多元分类)

    函数惩罚很大 同样的符合代价函数性质 至此,我们定义了关于单变量数据样本的分类代价函数,我们所选择的代价函数可以为我们解决代价函数为非凹函数的问题以及求解参数最优,接下来我们使用梯度下降算法来拟合...关于向量化,可以参考文章 【机器学习】向量化计算 – 机器学习路上必经路 同样的,在对于线性回归的梯度下降中,我们使用到了特征缩放数据标准化,同样的,这对于 logistic 回归算法同样适用。...数据标准化可参考文章: 【机器学习】梯度下降之数据标准化 五、高级优化算法 高级优化算法,与梯度下降相比能够大大提高 logistic 回归速度,也使得算法更加适合大型数据集机器学习问题。...除了使用梯度下降算法,还有诸多如下算法 优点如下 不需要选择学习率 \alpha ( 存在智能内循环,智能选择最佳的学习率 \alpha 下降速率快得多 缺点 太过于复杂了 在实际解决问题中,我们很少通过自己编写代码求平方根或者求逆矩阵...在logistic回归中,我们使用如下的 \theta 参数向量 (使用参数向量化) 所以在实现这些高级算法,其实是使用不同的高级库函数,虽然这些算法在调试过程中,更加麻烦,但是其速度远远大于梯度下降

    2.1K10

    【机器学习界的“Hello World“ 】Logistic 分类回归算法 (二元分类 & 多元分类)

    函数惩罚很大 同样的符合代价函数性质图片至此,我们定义了关于单变量数据样本的分类代价函数,我们所选择的代价函数可以为我们解决代价函数为非凹函数的问题以及求解参数最优,接下来我们使用梯度下降算法来拟合 $...关于向量化,可以参考文章 【机器学习】向量化计算 -- 机器学习路上必经路图片同样的,在对于线性回归的梯度下降中,我们使用到了特征缩放数据标准化,同样的,这对于$logistic$ 回归算法同样适用。...数据标准化可参考文章: 【机器学习】梯度下降之数据标准化五、高级优化算法高级优化算法,与梯度下降相比能够大大提高 $logistic$ 回归速度,也使得算法更加适合大型数据集机器学习问题。...除了使用梯度下降算法,还有诸多如下算法图片优点如下不需要选择学习率$\alpha$ ( 存在智能内循环,智能选择最佳的学习率$\alpha$下降速率快得多缺点太过于复杂了在实际解决问题中,我们很少通过自己编写代码求平方根或者求逆矩阵...在logistic回归中,我们使用如下的$\theta$参数向量 (使用参数向量化)图片所以在实现这些高级算法,其实是使用不同的高级库函数,虽然这些算法在调试过程中,更加麻烦,但是其速度远远大于梯度下降

    30530

    最新训练神经网络的五大算法

    一阶导数可以表示为一个向量:   ᐁif(w) = df/dwi (i = 1,…,n)   同样的,损失函数的二阶导数可以表示为海森矩阵( Hessian Matrix ):   Hi,jf(w) =...下图描述了此问题。 当神经网络模型非常庞大、包含上千个参数时,梯度下降方法是我们推荐的算法。...它能加快梯度下降法典型的慢收敛,同时避免了牛顿法对Hessian矩阵的评估、存储和反转所需的信息。 在共轭梯度训练算法中,搜索沿着共轭方向执行,通常能比梯度下降方向产生更快的收敛。...因为它不需要Hessian矩阵,所以当神经网络非常大时,也建议使用共轭梯度法。...为了解决这个缺点,出现了被称为拟牛顿法或可变矩阵法的替代方法。这种方法在算法的每次迭代中建立并逼近Hessian逆矩阵,而不是直接计算Hessian矩阵,然后评估其逆矩阵。

    2.6K40

    非线性回归中的Levenberg-Marquardt算法理论和代码实现

    下标j表示a可能有多个值,因为函数f依赖于自变量x和一个或多个参数a1, a2,…,aM。在这种情况下,我们需要根据每个参数部分推导函数。当函数的导数值为零时,函数的最小值才会出现。...在每次迭代中,我们都会向函数的最小值移动一点。梯度下降法的两个重要方面是初始猜测和我们在每次迭代时采取的步骤的大小。这种方法的效率在这两个方面是非常可靠的。 这和非线性回归有什么关系?...好的,我们可以使用梯度下降法来求函数s的最小值。在这种情况下,我们向最小值点所采取的每一步都可以表示为: ?...该方法根据我们与解的接近程度在梯度下降和高斯牛顿之间切换。Levenberg-Marquardt方法表示为: ? 在前面的等式中,I表示单位矩阵,并且λ被称为阻尼因子。...其背后的逻辑是,高斯-牛顿法在最终迭代中更有效,而梯度下降法在过程开始时很有用,因为该过程仍距离理想解决方案还很远。

    1.9K20

    学习笔记 | 吴恩达之神经网络和深度学习

    为这里的梯度,这条线的斜率,在这左边是0,我们发现,只需将sigmoid函数转换为ReLU函数便能够使得"梯度下降法"运行的更快,这就是一个例子关于算法创新。其目的就是增加计算速度。...在logistic回归和神经网络,要用到的符号就是这些了。 ? 符号表示 2.2 logistc回归 这是一个学习算法,用在监督学习中,输出y标签是0或1时,这是一个二分分类的问题。...当我们开始编写代码,来实现梯度下降,我们会使用到代码中变量名的约定,dw用来表示导数,作为导数的变量名,那么w:=w-α*dw(:=代表变化取值),现在我们确保梯度下降法中更新是有用的。...高度向量化的非常高效的logistc回归的梯度下降法。...softmax函数公式详细 numpy.dot()有两种意思: 参数为两个列表时,为求两个列表的点积,即对应相乘再加和 参数为向量与矩阵或者矩阵时,则是做矩阵的乘法 参数一个为m*n的矩阵,一个为n个元素的列表时

    1.1K40

    机器学习萌新必备的三种优化算法 | 选型指南

    当前,我们使用最多的优化算法之一是梯度下降算法。在本文中,我们会对梯度下降算法以及一些其他的优化算法进行介绍,并尝试从理论角度来理解它们。...我们都知道,矩阵转换的算法复杂度是非常高的(O(n³)),因此牛顿法在这种情形下并不常用。 梯度下降 梯度下降是目前为止在机器学习和其他优化问题中使用的最多的优化算法。...梯度算法的基本思想是,在每次迭代中向梯度方向走一小步。梯度算法还涉及一个恒定的alpha变量,该变量规定每次跨步的步长。...当alpha的值合理时,10次迭代后的梯度下降情况 最速下降法 最速下降法和梯度下降法非常相似,但是最速下降法对每次迭代时要求步长的值为最优。...其最大的问题在于,在优化过程中需要进行矩阵转换,对于多变量情形花销过高(尤其是向量的特征较多的时候)。 梯度下降(Gradient Descent) 梯度下降是最常用的优化算法。

    35220

    梯度下降算法数学原理讲解和Python代码实现

    一维情况 下降算法包括构建一个向x* (arg min f(x))收敛的序列{x},序列的构建方法如下: ? 其中k是迭代次数,d是一个与{x}数量相同的向量,称为下降向量。...我们尝试其他一些初始值,例如x_ init= [50,-30],该算法经过5次迭代终止。 此算法称为牛顿法,所有下降算法都是该方法的修改,都以该算法为母体。...计算逆矩阵是一项计算量很大的任务,因此数学家想出了解决此问题的解决方案。 主要是:拟牛顿法和梯度法。拟牛顿法尝试使用各种技术来逼近hessian 矩阵的逆,而梯度法只使用一阶信息。...梯度下降法进行了5000次迭代,而牛顿法仅进行了2次!另外,该算法还没有完全达到最小点(1,1)。 想一想。函数的导数是该函数的变化率。因此,hessian给出了有关梯度变化率的信息。...,下面我们用最佳步长编写梯度下降代码!

    1.6K20

    机器学习三种优化算法,初学者必备!

    当前,我们使用最多的优化算法之一是梯度下降算法。在本文中,我们会对梯度下降算法以及一些其他的优化算法进行介绍,并尝试从理论角度来理解它们。...我们都知道,矩阵转换的算法复杂度是非常高的( O (n³) ),因此牛顿法在这种情形下并不常用。 梯度下降 梯度下降是目前为止在机器学习和其他优化问题中使用的最多的优化算法。...梯度算法的基本思想是,在每次迭代中向梯度方向走一小步。梯度算法还涉及一个恒定的alpha变量,该变量规定每次跨步的步长。...当alpha的值合理时,10次迭代后的梯度下降情况 最速下降法 最速下降法和梯度下降法非常相似,但是最速下降法对每次迭代时要求步长的值为最优。...其最大的问题在于,在优化过程中需要进行矩阵转换,对于多变量情形花销过高(尤其是向量的特征较多的时候)。 梯度下降(Gradient Descent) 梯度下降是最常用的优化算法。

    67820

    ML算法——最优化|凸优化随笔【机器学习】【端午节创作】

    (暂不理解这个步骤2的替换如何实现的) 2、凸优化 2.1、梯度下降 传送门:ML算法—梯度下降随笔 2.2、牛顿法 求解无约束最优化问题,优点是收敛速度快。...牛顿法是一种迭代算法,用于求解方程式的根。其基本思想是利用函数的导数信息,不断迭代以逼近方程的根。 1)比梯度下降快的原因?...微分解释,牛顿法是二阶收敛,梯度下降是一阶收敛,牛顿法在选择方向时,不仅可以考虑坡度是否够大,还可以考虑走了一步后坡度是否会更大,因此能更快地走到最底部。...对于非二次型目标函数,不能保证函数值稳定的下降,有时会出现 f(x_{k+1})>f(x_k) ,走过头了,为消除定步长迭代的弊端,阻尼牛顿法每次迭代方向仍然是 x_k ,但每次迭代会沿此方向做一维搜索...2)拟牛顿法算法过程 图片 图片 图片 2.5、总结 重点是梯度下降法,利用一阶导数,而二阶导数涉及到海森矩阵,具有较大的计算量,因此,往往采用梯度下降算法。

    30411

    深度网络揭秘之深度网络背后的数学

    我们将运用我们所知的在单个神经元内部的原理,矢量化整个层,将这些计算结合到矩阵方程中。方程式将会被编写在选择层中,为了统一符号[l]。顺便说一下,下标i标记该层中神经元的索引。 ?...图5,单个层 一个更重要的评价:当我们为一个单个单元编写方程时,我们使用x和y^,它们分别是特征值的列向量和预测值,当我们切换到图层的一般表示法时,我们使用向量a - 该向量可以激活相应的层。...为了形成关于梯度下降如何工作的直观理解(再次引起你的注意)我准备了一个小的可视化示意图。你可以看到我们从随机点走向最低点的每一步。...图8.实际中的梯度下降 反向传播 正如我们所需要的,反向传播是一种可以让我们计算非常复杂的梯度的算法,我们可以根据以下公式调整神经网络的参数。 ?...在使用神经网络时,至少基本了解这个过程是非常有用的。我认为我提到的这些事情是最重要的,但它们仅仅是冰山一角。我强烈建议你尝试自己编写这样一个小的神经网络,不使用高级框架,只使用Numpy。

    54620

    机器学习入门 6-5 梯度下降的向量化和数据标准化

    一 线性回归中梯度下降法的向量化 前几个小节实现梯度下降法的时候是通过for循环方式,前面也提到过for循环的方式效率低下,因此如果想要提高效率的话只需要将其转换成向量化的方式,借助Numpy模块的优势提高算法的效率...通常情况下向量会被表示成列向量的形式,但是如果两个矩阵能够相乘,需要满足第一个矩阵的列数等于第二个矩阵的行数,很明显如果"式子1"为列向量的话不能够进行矩阵乘法,因此如果进行矩阵乘法运算需要将"式子1"...同理,如果想要更好的解决梯度下降法中数据规模不同导致的收敛问题,同样可以使用数据归一化来处理。...而当我们使用梯度下降法的时候,事情就变的不一样的,由于梯度下降中有eta这个变量,首先会出现一个问题,如果最终这些数值不在一个维度上,将会影响梯度的结果,而梯度的结果乘上eta才是我们真正走的步长,此时这个步长就可能太大或者太小...上面创建了一些拥有1000个样本5000个特征的样本,可以看出此时的梯度下降法比正规方程法省了不少时间,当然增大数据量,效果更为明显。

    1.3K00

    机器学习萌新必备的三种优化算法 | 选型指南

    当前,我们使用最多的优化算法之一是梯度下降算法。在本文中,我们会对梯度下降算法以及一些其他的优化算法进行介绍,并尝试从理论角度来理解它们。...我们都知道,矩阵转换的算法复杂度是非常高的(O(n³)),因此牛顿法在这种情形下并不常用。 梯度下降 梯度下降是目前为止在机器学习和其他优化问题中使用的最多的优化算法。...梯度算法的基本思想是,在每次迭代中向梯度方向走一小步。梯度算法还涉及一个恒定的alpha变量,该变量规定每次跨步的步长。...当alpha的值合理时,10次迭代后的梯度下降情况 最速下降法 最速下降法和梯度下降法非常相似,但是最速下降法对每次迭代时要求步长的值为最优。...其最大的问题在于,在优化过程中需要进行矩阵转换,对于多变量情形花销过高(尤其是向量的特征较多的时候)。 梯度下降(Gradient Descent) 梯度下降是最常用的优化算法。

    48620
    领券