Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >为什么神经网络工作得这么好?

为什么神经网络工作得这么好?
EN

Stack Overflow用户
提问于 2016-07-26 08:38:31
回答 8查看 8.9K关注 0票数 11

我理解用正反两种方法训练梯度下降的神经网络的所有计算步骤,但我试着思考为什么它们比logistic回归更好。

就目前而言,我能想到的就是:

( A)神经网络可以学习它自己的参数

( B)有比简单的logistic回归更多的权重,从而允许了更复杂的假设。

有人能解释为什么神经网络在一般情况下工作得这么好吗?我是一个相对初学者。

EN

回答 8

Stack Overflow用户

回答已采纳

发布于 2016-07-26 09:52:38

神经网络可以有大量的自由参数(相互关联的单元之间的权重和偏差),这使它们能够灵活地拟合高度复杂的数据(如果训练正确的话),而其他模型过于简单,无法拟合。这种模型的复杂性带来了训练这样一个复杂网络的问题,并确保得到的模型概括到它所训练的例子(通常,神经网络需要大量的训练数据,而其他模型则不需要)。

传统的logistic回归被限制在使用线性分类器的二进制分类中(尽管多类分类可以很容易地通过一-vs、一-vs等方法实现,并且存在允许非线性分类任务的逻辑回归的核心变体)。因此,一般情况下,logistic回归通常应用于更简单、线性可分离的分类任务,在这些任务中可以获得少量的培训数据。

像logistic回归和线性回归这样的模型可以被认为是简单的多层感知器(关于如何使用的一种解释,请查看本站 )。

总之,模型的复杂性使神经网络能够解决更复杂的分类任务,并具有更广泛的应用(尤其是应用于原始数据,如图像像素强度等),但它们的复杂性意味着需要大量的训练数据,训练它们可能是一项困难的任务。

票数 11
EN

Stack Overflow用户

发布于 2018-07-05 11:54:51

最近,Naftali Tishby博士关于信息瓶颈的观点在学术界得到了广泛的应用,以解释深层神经网络的有效性。他的视频解释了这个想法(下面的链接)可能相当密集,所以我将尝试给出核心想法的精馏/一般形式,以帮助建立直觉。

https://www.youtube.com/watch?v=XL07WEc2TRI

为了使你的思维有基础,将MNIST任务中的数字分类。为此,我只讨论简单的完全连接的神经网络(而不是通常用于MNIST的卷积神经网络)。

NN的输入包含隐藏在其中的输出的信息。需要一些函数才能将输入转换为输出表单。很明显。建立更好的直觉所需的思维的关键区别在于将输入看作是一个包含“信息”的信号(我不想在这里深入到信息论中)。其中一些信息与手头的任务相关(预测输出)。把输出看作是一个有一定数量的“信息”的信号。神经网络试图“连续细化”和压缩输入信号的信息,以匹配所需的输出信号。将每一层看作是切断输入信息不必要的部分,并在通过网络的过程中保存和/或转换输出信息。完全连通的神经网络将输入信息转化为最终隐层的一种形式,从而使输入信息与输出层线性分离。

这是对神经网络的一个很高层次和最基本的解释,我希望它能帮助你更清楚地看到它。如果有什么地方你想让我澄清,请告诉我。

are . within的工作中还有其他一些重要的部分,比如小批量噪声如何帮助训练,以及如何将神经网络层的权重看作是在问题的约束范围内进行随机游走。这些部分更详细一些,我建议你先玩一下神经网络,然后上一门关于信息论的课程来帮助你建立理解。

票数 5
EN

Stack Overflow用户

发布于 2018-07-16 22:43:22

假设您有一个大型数据集,并且您希望为此构建一个二进制分类模型,那么现在您已经指出了两个选项。

  • Logistic回归
  • 神经网络(现在考虑FFN )

神经网络中的每个节点都将与激活函数相关联,例如,让我们选择Sigmoid,因为Logistic回归也在内部使用sigmoid进行决策。

让我们看看当应用于数据时逻辑回归的决策是如何的。

看到红色边界上的一些绿点了吗?

现在让我们看看神经网络的决策边界(请原谅我使用了不同的颜色)。

为什么会发生这种事?为什么神经网络的决策边界如此灵活,给出的结果比Logistic回归更准确?

或者你问的问题是“为什么神经网络工作得这么好?”是因为它是隐藏的单位或隐藏的层和它们的表现力。

让我这样说。你有一个logistic回归模型和一个神经网络,其中包括100个神经元的Sigmoid激活。现在每个神经元将等价于一个logistic回归。

现在假设100个后勤单位一起训练来解决一个问题,而不是一个logistic回归模型。由于这些隐藏层的存在,使得决策边界扩展,得到了更好的结果。

当你在实验的时候,你可以增加更多的神经元,看看决策边界是如何变化的。logistic回归与单神经元神经网络是一致的。

以上给出的只是一个例子。神经网络可以训练成非常复杂的决策边界。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38595451

复制
相关文章
DeepMind Dreamer 系列为什么效果这么好
因为使用了自由能理论,dreamer系列是自由能理论的一个实现及大量的工程迭代优化,请看分析:
CreateAMind
2023/09/01
3860
DeepMind Dreamer 系列为什么效果这么好
Nature发文:深度学习系统为什么这么好骗?
几张贴纸就能「改变」交通标志识别结果,转个方向就看不出图中的动物种类,今天的人工智能系统经常会出现莫名其妙的 bug。最新一期《自然》杂志上的这篇文章向我们介绍了深度学习为什么如此容易出错,以及解决这些问题的研究方向。
机器之心
2019/10/12
9330
Nature发文:深度学习系统为什么这么好骗?
为什么深度神经网络这么难训练?
导读:本文内容节选自《深入浅出神经网络与深度学习》一书,由Michael Nielsen所著,他是实验媒体研究工作室的联合创始人,曾是 YC Research 的 Research Fellow。。
用户1737318
2020/09/10
8380
为什么深度神经网络这么难训练?
区块链这么好,为什么还是有人选择离开?
360搜索入局区块链,原创图片认证成切入口! 7月30日,360搜索原创图片认证平台——图刻正式上线,标志着360搜索以数字资产的确权、分发和维权为切入点,正式进军区块链领域。
养码场
2018/08/14
7540
区块链这么好,为什么还是有人选择离开?
360搜索入局区块链,原创图片认证成切入口! 7月30日,360搜索原创图片认证平台——图刻正式上线,标志着360搜索以数字资产的确权、分发和维权为切入点,正式进军区块链领域。
养码场
2018/08/09
3K0
区块链这么好,为什么还是有人选择离开?
Log4j2的性能为什么这么好?
说明: 这个是logback日志的压测数据,在开发机(双核四线程),高配开发机(四核八线程)和服务器(32核)压测的效率都差不多,而且线程开多的时候,性能反而有下降,压测数据如下:
小程故事多
2018/08/22
2.1K0
Log4j2的性能为什么这么好?
Unet神经网络为什么会在医学图像分割表现好?
https://www.zhihu.com/question/269914775/answer/586501606
AI算法与图像处理
2019/10/14
3.5K0
Unet神经网络为什么会在医学图像分割表现好?
躺着办公这么快乐,为什么我是还想回公司工作?
今天是小N在家办公的第八天 办公姿势:躺着 办公位置:床上 实现了零距离通勤 起床就已经到达工位 说起来这个办公位置, 大家晒出来的环境真是五花八门: 拿鞋盒子抬高电脑工作的 用洗衣机当办公桌的 还有在大树下园林式办公的 一边听着鸡鸣声一边工作的 还有拿着手机 全村跑着找wifi信号连网开视频会议的 想象中的在家办公和实际确实有所不同 除了”配置环境“以外 在家办公遇到的阻碍还有很多: 01 猫大爷 离开电脑去上个洗手间, 猫把电脑当做红毯 优雅地从上面上走过,
腾讯NEXT学位
2020/02/24
5430
躺着办公这么快乐,为什么我是还想回公司工作?
为什么做一个好的太空机器人这么难?
太空机器人面临着很多的挑战,但是最大的挑战却不是技术。这涉及到调整空间机器人计划以适应一个新的世界,在这个世界中商业因素(而不是政府)更超前于科技因素,许多组织需要一起协同工作,同时也需要争夺工程人才。 在旧金山一个机器人专家和爱好者讨论会上,太空机器人领域的一些领军人物也达成了这样的共识。这是行业组织“硅谷机器人”的“影响者”系列沙龙的一部分。接下来要介绍的是其中一些小组成员认为将要面临的挑战: Joe Parrish,喷气推进实验室火星项目计划办公室副经理 “我们的世界将会发生关于机器人的革命。
机器人网
2018/04/13
7710
为什么做一个好的太空机器人这么难?
Protocol Buffer 序列化原理大揭秘 - 为什么Protocol Buffer性能这么好?
通过将 结构化的数据 进行 串行化(序列化),从而实现 数据存储 / RPC 数据交换的功能
Carson.Ho
2019/02/22
7.7K3
算法大佬看了流泪,为什么这么好的CTR预估总结之前没分享(上篇)
在广告、推荐系统CTR预估问题上,早期的完全规则方法被过渡到以LR为代表的机器学习方法,为了充分发挥组合特征的价值,在相当长一段时间里,业界热衷于使用LR+人工特征工程。但人工组合特征成本高昂 ,在不同任务上也难以复用。2010年FM因子分解方法的出现解决了人工组合特征的困境,2014年Facebook提出的GBDT+LR也给出了一种利用树模型特点构建组合特征的思路。不过随着深度学习的崛起,2015年以后,借助非线性自动组合特征能力的深度模型,开始成为业内的主流。从经典DNN到结合浅层的Wide&Deep,用于CTR预估的深度模型在近些年间百花盛开,各种交叉特征建模方法层出不穷,Attention机制也从其他研究领域引入,帮助更好的适应业务,提升模型的解释性。在这进化路线之下,核心问题离不开解决数据高维稀疏难题,自动化组合特征,模型可解释。我们梳理了近些年CTR预估问题中有代表性的模型研究/应用成果,并对部分经典模型的实现原理进行详细剖析,落成文字作为学习过程的记录。
炼丹笔记
2021/05/14
5.2K0
算法大佬看了流泪,为什么这么好的CTR预估总结之前没分享(上篇)
算法大佬看了流泪,为什么这么好的CTR预估总结之前没分享(下篇)
在广告、推荐系统CTR预估问题上,早期的完全规则方法被过渡到以LR为代表的机器学习方法,为了充分发挥组合特征的价值,在相当长一段时间里,业界热衷于使用LR+人工特征工程。但人工组合特征成本高昂 ,在不同任务上也难以复用。2010年FM因子分解方法的出现解决了人工组合特征的困境,2014年Facebook提出的GBDT+LR也给出了一种利用树模型特点构建组合特征的思路。不过随着深度学习的崛起,2015年以后,借助非线性自动组合特征能力的深度模型,开始成为业内的主流。从经典DNN到结合浅层的Wide&Deep,用于CTR预估的深度模型在近些年间百花盛开,各种交叉特征建模方法层出不穷,Attention机制也从其他研究领域引入,帮助更好的适应业务,提升模型的解释性。在这进化路线之下,核心问题离不开解决数据高维稀疏难题,自动化组合特征,模型可解释。我们梳理了近些年CTR预估问题中有代表性的模型研究/应用成果,并对部分经典模型的实现原理进行详细剖析,落成文字作为学习过程的记录。
炼丹笔记
2021/05/14
2.1K0
算法大佬看了流泪,为什么这么好的CTR预估总结之前没分享(下篇)
卷积神经网络VGG16这么简单,为什么没人能说清?
很多人想入门做深度学习,但往往翻遍网络看完一篇又一篇所谓的“入门教程”,paper,包括很多深度学习框架官方给出的案例,给人的感觉真的是从入门到放弃。写教程的作者有很多都是技术大神,但写出的东西真的是把原本简简单单的理论说得晦涩难懂,模凌两可。比如说VGG16,都是摆上从论文里截过来的下面这张图:
机器学习AI算法工程
2019/10/28
2.4K0
卷积神经网络VGG16这么简单,为什么没人能说清?
WebAssembly 为什么这么快?
WebAssembly 是一种使 JavaScript 以外的编程语言编写的代码能够在浏览器中运行的技术。所以当人们在讨论 WebAssembly 运行之快的时候, 实际上是在和 JavaScript 进行对比。
桃翁
2018/12/18
1.1K0
Redis 为什么这么快?
所有与 Java 相关的面试都会问到缓存的问题,基础一点的会问到什么是“二八定律”、什么是“热数据和冷数据” ,复杂一点的会问到缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级等问题,这些看似不常见的概念,都与我们的缓存服务器相关,一般常用的缓存服务器有 Redis、Memcached 等,而笔者目前最常用的也只有 Redis 这一种。
CSDN技术头条
2019/11/19
6340
Redis 为什么这么快?
为什么算法这么难?
来自:刘未鹏 | MIND HACKS 链接:http://mindhacks.cn/2011/07/10/the-importance-of-knowing-why-part3/(点击尾部阅读原文前往) 广大码农同学们大多都有个共识,认为算法是个硬骨头,很难啃,悲剧的是啃完了还未必有用——除了面试的时候。实际工程中一般都是用现成的模块,一般只需了解算法的目的和时空复杂度即可。 不过话说回来,面试的时候面算法,包括面项目中几乎不大可能用到的算法,其实并不能说是毫无道理的。算法往往是对学习和理解能力的一块试金
智能算法
2018/04/02
1.4K0
为什么算法这么难?
Redis为什么这么快?
Tech 导读 Redis是一个开源的内存中的数据结构存储系统,在实际的开发过程中,Redis已经成为不可或缺的组件之一,基于内存实现、合理的数据结构、合理的数据编码、合理的线程模型等特征不仅仅让Redis变得如此之快,同时也造就了Redis对更多或者复杂的场景的支持。
京东技术
2023/09/21
1590
Redis为什么这么快?
Kafka为什么这么快?
Kafka 是比较常用的消息队列,我们都知道 Kafka 的吞吐量很大,即使是普通的服务器,Kafka也可以轻松支持每秒百万级的写入请求,超过了大部分的消息中间件,这种特性也使得Kafka在日志处理等海量数据场景广泛应用。
Li_XiaoJin
2022/06/10
5870
Kafka为什么这么快?
为什么编程这么难学?
曾经上学时就有过这样的经历,学习一个东西的时候刚开始大家的起点都一样。一个星期过后就会出现差距,一些人开始慢慢落下步法,一些人却高歌猛进。其实大家的智商99%的人都是一样的,那1%的人除外。为什么呢? 学东西比较快的人,他们的记忆力、理解能力、思维速度通常比较出众,将知识转化为联系和应用的速度较快,因此,他们比较容易理解一个概念,并应用这个概念去解决固有的问题。这些东西其实也是可以锻炼提高的,先天的东西没法决定。但是这种思维方式等同于方法,方法用对事半功倍。 编程学习同样如此我们简单分析有这些问题:
程序员互动联盟
2018/03/16
1K0
为什么编程这么难学?
PyCharm为什么这么牛?
说实话,我个人是用Jupyter Notebook最多,主要是经常做数据可视化,方便些。
龙哥
2022/04/15
1.3K0
PyCharm为什么这么牛?

相似问题

为什么我的iOS应用压缩得这么好?

16

不明白为什么算法工作得这么快

211

为什么canlib表现得这么慢?

10

为什么堆栈表现得这么奇怪?

23

Dropbox的登陆页面下载过程是如何工作得这么好?

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文