首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >监督机器学习:数据点数与变量之间的关系

监督机器学习:数据点数与变量之间的关系
EN

Stack Overflow用户
提问于 2020-03-13 10:10:07
回答 1查看 46关注 0票数 1

算了吧。我们有一个数据集(以.csv格式)用于监督机器学习。它有60个数据点(数据行),每个数据点有100个变量。

我用60个数据点的全部100个变量来训练机器学习模型,这有意义吗?在我看来,这似乎在数学上是错误的。它就像我解了一个有100个变量的方程组,但是只有60个方程?

在数据集中,如果我们有n个变量,那么训练机器学习模型所需的最小数据点是多少?

对此有统计理论吗?

非常感谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-03-13 11:38:02

要回答你的第一个问题,你是对的,尝试用100个特性来概括一个模型是没有意义的,但只有60个例子。

统计原因在弗拉基米尔·瓦普尼克的“统计学习理论”中得到了广泛的解释。我并不是真的建议去读那些书,这是一本很大的书和很多的数学,也不是太多的例子。但是,您需要知道的是什么叫做Vapnik Chervonenkis维数,或者大多数情况下,它被称为VC维度

但是长话短说,如果维度大于训练示例的数量,那么您将得到的不是泛化,而是过度适合。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60675349

复制
相关文章
优化与深度学习之间的关系
我只画出了区间(-2, 2)的函数图像,通过观察图像,我们发现该函数有两个波谷,分别是局部最小值和全局最小值。
磐创AI
2020/05/26
1.1K0
优化与深度学习之间的关系
优化与深度学习之间的关系
在深度学习任务中,我们常常会为模型定义一个损失函数,损失函数表征的是预测值和实际值之间的差距,再通过一定的优化算法减小这个差距
BBuf
2020/05/19
4710
机器学习正在改变人和食物之间的关系
【新智元导读】当前的粮食种植正朝着以信息技术、生物技术、工程技术等一系列高新技术为基础的面向大田作物生产的精准农业发展。大数据和预测分析也使农业管理和经营变得产业化。不同的市场有不同的机遇,发展中市场能够通过精准农业、供应链效率以及农业专用支付系统实现改革;发达国家可以使用数字工具解决食品安全、生产可持续性的问题。从田间到餐桌,食物和人的关系变得更加科学。 现在,计算机视觉、精准传感器和机器学习技术将在农业掀起新的一波变革,在这些技术的帮助下,农民可以种植更加健康、更加美味的食物。 The Climate
新智元
2018/03/23
1K0
机器学习正在改变人和食物之间的关系
PPC深度学习与站点优化之间的关系
深度学习是每个行业都需要的一个过程,它使得你在行业中,可以快速的累积核心技术,并针对特定的问题,提供多样化的解决方案。
蝙蝠侠IT
2020/11/27
4490
PPC深度学习与站点优化之间的关系
finally与return之间的关系
问:finally会在什么时候执行? 答:如果在try/catch语句中调用转移指令例如:return,break,continue,throw等。则会在转移指令前执行。
zhangheng
2020/04/28
9450
表与表之间关系
可以在数据库图表中的表之间创建关系,以显示一个表中的列与另一个表中的列是如何相链接的。
星哥玩云
2022/09/15
1.5K0
表与表之间关系
Hive与Hbase之间的区别与关系
梳理了Hbase与Hive之间的区别和关系 1. 区别 Hbase:Hadoop database,也就是基于Hadoop的数据库,是一种NoSQL的数据库,主要用于海量数据的实时随机查询,例如:日志明细,交易清单等。 Hive: Hive是hadoop的数据仓库,跟数据库有点差,主要是通过SQL语句对HDFS上结构化的数据进行计算和处理,适用于离线批量数据处理 通过元数据对HDFS上的数据文件进行描述,也就是通过定义一张表来描述HDFS上的结构化文本,包括各列的数
俺也想起舞
2019/07/24
2.4K0
Dalvik、ART与JVM之间的关系
01 — Dalvik简介 1、Google自己设计的用于Android平台的虚拟机; 2、支持已转化为dex格式的java应用程序运行; dex是专为Dalvik设计的一种压缩格式 3、允许在有限的内存中同时运行多个虚拟机实例,并未每一个Dalvik应用作为一和独立的Linux进程运行; 4、5.0以后,Google直接删除Dalvik,取而代之的是ART。 ---- 02 — Dalvik与JVM区别 1、Dalvik是基于寄存器,JVM基于栈; 2、Dalvik运行dex文件,JVM运行java字
蜻蜓队长
2018/08/03
1.4K0
python之类与类之间的关系
在我们的世界中事物和事物之间总会有一些联系.   在面向对象中. 类和类之间也可以产生相关的关系
py3study
2020/01/20
6630
MySQL表与表之间的关系
这是一个书和出版社的一个例子,书要关联出版社(多个书可以是一个出版社,一个出版社也可以有好多书)。
星哥玩云
2022/08/18
3.7K0
MySQL表与表之间的关系
机器学习中的有监督学习,无监督学习,半监督学习
监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。 非监督学习:直接对输入数据集进行建模,例如聚类。
全栈程序员站长
2022/09/02
12.7K0
hashCode与equals方法之间的关系
hashCode 顾名思义是一个“散列值码” 散列值,并不能表现其唯一性,但是有离散性,其意义在于类似于进行hashMap等操作时,加快对象比较的速度,进而加快对象搜索的速度。 hashCode 和 equals的关系。 两个对象 equals的时候,hashCode必须相等,但hashCode相等,对象不一定equals。 如果没有重写 hashcode方法,使用Object自带的hashCode,无法保证两个对象equals的时候 hashCode 必须相等的条件。 在Java中,重写equals()方法之后,是否需要重写hashCode()方法,那要看分情况来说明。有些情况下,是建议;有些情况下,是必须重写。 首先说建议的情况:    比如你的对象想放到Set集合或者是想作为Map的key时,那么你必须重写equals()方法,这样才能保证唯一性。当然,在这种情况下,你不想重写hashCode()方法,也没有错。但是,对于良好的编程风格而言,你应该在重写equals()方法的同时,也重写hashCode()方法。 必须重写hashCode()的情况:     如果你的对象想放进散列存储的集合中(比如:HashSet,LinkedHashSet)或者想作为散列Map(例如:HashMap,LinkedHashMap等等)的Key时,在重写equals()方法的同时,必须重写hashCode()方法。 最后明白两点就行了: 1.hashCode()方法存在的主要目的就是提高效率。 2.在集合中判断两个对象相等的条件,其实无论是往集合中存数据,还是从集合中取数据,包括如果控制唯一性等,都是用这个条件判断的,条件如下:     首先判断两个对象的hashCode是否相等,如果不相等,就认为这两个对象不相等,就完成了。如果相等,才会判断两个对象的equals()是否相等,如果不相等,就认为这两个对象不相等,如果相等,那就认为这两个对象相等。     上面的条件对于任何集合都是如此,只要理解上面的条件,你就明白了,为什么在有些情况下建议重写hashCode().有些情况下,是必须要重写的,只有一个目的,就是提高效率,你想想,如果你重写了hashCode(),只要不满足第一个条件,那就直接可以判断两个对象是不等的,也就不用花费时间再去比较equals了。 最后总结一句话就是,hashCode()方法存在的主要目的就是提高效率,但是如果你想把对象放到散列存储结构的集合中时,是必须要重写的。
yesr
2019/03/14
2K0
机器学习之有监督学习,无监督学习,半监督学习
机器学习是数据分析和数据挖掘的一种比较常用,比较好的手段从有无监督的角度,可以分为三类:
全栈程序员站长
2022/09/01
7260
selector与selectionKey与channel之间关系
SelectionKey : Selector选择器注册(register()) (Channel通道+感兴趣的操作(读写...))的标记类, 用于存储(channel+操作)组合与selector之间的关系
spbreak
2023/09/11
3190
selector与selectionKey与channel之间关系
【机器学习算法系列】如何用Apriori寻找到繁杂数据之间的隐藏关系
大型超市有海量交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务。但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入。其中最经典的案例就是关于尿不湿和啤酒的故事。怎样在繁杂的数据中寻找到数据之间的隐藏关系?当然可以使用穷举法,但代价高昂,所以需要使用更加智能的方法在合理时间内找到答案。Apriori就是其中的一种关联分析算法。
统计学家
2019/04/10
8190
【机器学习算法系列】如何用Apriori寻找到繁杂数据之间的隐藏关系
【森林结点数,边数与树个数的关系】
看一个例子: 若森林F有15条边、25个结点,则F包含树的个数是:____(2分)。 答案是10。举完例子了,下面开始分析:
_DIY
2019/10/16
2.4K0
Java学习记录——探究Spring Boot与Spring Cloud之间的关系
SpringBoot相当于脚手架,借助他可以快速搭建房子,它本身不具备任何功能属性,只是普通房间,没有其他任何功能。
慕容千语
2019/06/11
6290
js unit8array和java变量之间的关系
最近一个项目遇到了一个二维码转换的问题,厂家给的demo只有js的转换方式,其中用到了Unit8,由于实际应用场景,转换应该由后端java代码进行实现,这里记录一下实现方式。
全栈程序员站长
2022/11/04
1.2K0
ES6与JavaScript之间的关系
JS是由ES(ECMAScript)、DOM(浏览器文档对象)、BOM(浏览器对象模型)组成。
瑞新
2020/07/07
2.1K0
FastCgi与PHP-fpm之间的关系
刚开始对这个问题我也挺纠结的,看了《HTTP权威指南》后,感觉清晰了不少。 首先,CGI是干嘛的?CGI是为了保证web server传递过来的数据是标准格式的,方便CGI程序的编写者。 web server(比如说nginx)只是内容的分发者。比如,如果请求/index.html,那么web server会去文件系统中找到这个文件,发送给浏览器,这里分发的是静态数据。好了,如果现在请求的是/index.php,根据配置文件,nginx 知道这个不是静态文件,需要去找PHP解析器来处理,那么他会把这个请求
wangxl
2018/03/08
1.2K0

相似问题

无监督机器学习与scikit学习

20

监督机器学习算法

11

有监督的机器学习

10

多个因变量的监督机器学习分类实例

25

机器学习(无监督方法)

20
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档