首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何利用2+数据集改进机器学习模型

如何利用2+数据集改进机器学习模型
EN

Data Science用户
提问于 2021-04-12 23:56:28
回答 1查看 464关注 0票数 0

我正在建立一个有监督的机器学习模型,该模型(例如)预测心力衰竭(是/否)。我有两个来自两个不同实验室的数据集,A和B都有很好的分布,也不是说A比B有更多的年轻人,但不知怎么的,A的心力衰竭率要低得多。

为每个模型创建了一个单独的模型,每个模型的准确率都达到了90%或更高,但我的目标是建立一个模型,该模型可以使用包含来自A和B的信息的级联数据集。目前,这种组合模型对于来自B的样本的准确率为75%,对于A的准确率为90%。

我试过的是:

  • 不同方式的示例/创建“偶数”数据集
  • 添加指示哪个实验室的功能
  • 正规化数值特征
  • 为数值特征创建类别

我知道总体结果当然不会像单个模型那样好,但是我如何使这些平台至少获得更多相似的结果呢?我很感激我能尝试的任何解决这类问题的建议/方法!!

EN

回答 1

Data Science用户

发布于 2021-05-15 12:07:45

您可能希望使用一种名为集成方法的方法组合这两个模型。

但是,在您的例子中,如果您说功能的分布是相似的,那么在单个模型中使用合并的数据会更糟糕,我对此感到惊讶。

因此,有两个潜在的结果:

  1. 如果数据的分布是相同的,它可能是个别的模型被过度拟合,并给出较大的数据集,这是公开的。
  2. 如果发行版不同,那么每个模型都会根据特定的特性进行调优,因此很难实现单一的通用模型。

为了更好地了解所期望的内容,我建议为每个特性做一些分发图,看看它们是否像您所说的一样。

另一个简单的测试是采用模型A并使用它来预测数据集B中的一切,反之亦然。如果实际准确度在70%左右,那么一切都如预期的那样工作。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/92996

复制
相关文章
如何利用机器学习进行海量数据挖掘
互联网的海量数据不可能靠人工一个个处理,只能依靠计算机批量处理。最初的做法是人为设定好一些规则,由机器来执行。但特征一多规则就很难制定,即使定下了规则也没法根据实际情况灵活变化。机器学习可以很好的解决以上问题,从一定程度上赋予了计算机以“学习”的能力,使得千人千面成为可能。 大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将笔者
CDA数据分析师
2018/02/05
1K0
如何利用机器学习进行海量数据挖掘
机器学习:大数据集下的机器学习
如果我们有一个低方差的模型,增加数据集的规模可以帮助你获得更好的结果。但是大数据集意味着计算量的加大,以线性回归模型为例,每一次梯度下降迭代,我们都需要计算训练集的误差的平方和,当数据集达到上百万甚至上亿的规模时,就很难一次性使用全部的数据集进行训练了,因为内存中放不下那么多的数据,并且计算性能也达不到要求。
Here_SDUT
2022/09/19
5060
机器学习:大数据集下的机器学习
如何使用sklearn加载和下载机器学习数据集
sklearn 中提供了很多常用(或高级)的模型和算法,但是真正决定一个模型效果的最后还是取决于训练(喂养)模型时所用的数据。sklearn 中的 sklearn.datasets 模块包含了数据生成相关的功能。主要包含以下几种类型的数据集:
abs_zero
2018/04/11
4.4K0
如何使用sklearn加载和下载机器学习数据集
如何利用机器学习预测房价?
对于我在梅蒂斯的最后一个项目,我希望能包含过去三个月里所学到的东西,而预测波特兰房价这个题目正符合我的要求,因为我能够将网络爬取技术、文本自然语言处理,图像上的深度学习模型以及梯度增强技术进行整合来实
AI研习社
2018/03/19
1.6K0
如何利用机器学习预测房价?
【数据集】机器学习数据集汇总(附下载地址)
(Stanford)69G大规模无人机(校园)图像数据集【Stanford】 http://cvgl.stanford.edu/projects/uav_data/
zenRRan
2020/02/18
5.8K0
机器学习经典开源数据集
"数据为王,使用相同机器学习算法,不同质量的数据能训练出不同效果的模型。本文将分享数据科学领域中经典的几个开源数据集。
木东居士
2018/05/25
2.5K8
机器学习笔记——数据集分割
在模型训练之前,要首先划分训练集与测试集,如何对原始数据集进行训练集与测试集的划分?训练集与测试集的比例各占多少?如何保证各自内部标签分布平衡都会影响模型训练的最终效果。
数据小磨坊
2018/10/23
2K0
机器学习|模型选择之划分数据集及Sklearn实现
直接将数据集D划分为两个互斥的集合:训练集S和测试集T(D = S∪T,S∩T = ∅),在S上训练模型,用T来评估其测试误差。
用户1621951
2019/10/18
2.5K0
如何保存机器学习模型
这篇文章主要介绍持久化存储机器学习模型的两种方式:pickle和joblib,以及如何DIY自己的模型存储模块。
MeteoAI
2019/08/21
2.7K0
如何保存机器学习模型
Mercari数据集——机器学习&深度学习视角
我很高兴与大家分享我的机器学习和深度学习经验,同时我们将在一个Kaggle竞赛得到解决方案。学习过程的分析也是非常直观,具有娱乐性和挑战性。希望这个博客最终能给读者一些有用的学习帮助。
磐创AI
2020/09/07
1.3K0
利用图像数据,机器学习可重构城市3D模型
据数码趋势网站报道,研究人员通过数以百万计的图像和视频重建了瑞士苏黎世市的三维模型。瑞士苏黎世联邦理工学院(ETH)研究人员开发的Varcity平台,从大量的图像数据中采集信息,并使用算法将图像数据自
人工智能快报
2018/03/07
1.4K0
利用图像数据,机器学习可重构城市3D模型
利用机器学习构建我国历史PM2.5浓度数据集
自2013年以来我国建立了覆盖全国的空气质量观测站点来实时监测近地面PM2.5浓度。但是这些观测数据受限于较短的时间覆盖以及不均匀的空间分布,很难用来描述我国长期PM2.5变化特征。目前国内外很多研究已经利用卫星反演的气溶胶光学厚度(AOD)产品来近似估算中国近地面PM2.5浓度。而卫星数据在很大程度上受反演算法的影响,且受限于时间覆盖,很难用于研究长期PM2.5浓度变化趋势及其对环境和气候变化的影响。
bugsuse
2022/09/23
1K0
利用机器学习构建我国历史PM2.5浓度数据集
机器学习经典开源数据集盘点
在机器学习任务实施前,如何快速寻找到可用数据集,是令每一位研究人员最头痛的事情。本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。
数据STUDIO
2022/04/11
8990
机器学习经典开源数据集盘点
机器学习经典开源数据集盘点
在机器学习任务实施前,如何快速寻找到可用数据集,是令每一位研究人员最头痛的事情。本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。
abs_zero
2022/04/19
7470
机器学习经典开源数据集盘点
秘籍 | 机器学习数据集网址大全
要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情。越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究。
AI科技大本营
2019/05/06
7810
秘籍 | 机器学习数据集网址大全
如何利用机器学习分类模型,构建商业关键词推荐系统
以下内容均基于百度关键词推荐系统进行讨论 本文内容主要集中在使用机器学习方法判断两个短文本的相关性为基础构建商业关键词推荐系统。 为方便读者理解, 会先介绍该技术的具体应用背景及场景。 广告主在百度或google上进行广告投放时, 需要选择关键词, 以向搜索引擎表述自己想要覆盖的有商业价值的网民搜索流量。 在选择关键词后, 还需要设定具体的关键词匹配模式, 以告诉搜索引擎选择的关键词以何种方式去匹配网民的搜索。 举个例子: 网民在百度上搜索 ‘鲜花快送’, 假设商家A是卖花的, 搞鲜花速递业务的, 则
机器学习AI算法工程
2018/03/14
1.8K0
如何利用机器学习分类模型,构建商业关键词推荐系统
[转载] 机器学习数据集统计系列一
作者:宋天龙 链接:https://www.zhihu.com/question/63383992/answer/222718972 来源:知乎
marsggbo
2018/12/12
1.2K0
如何利用已有的大数据技术,搭建机器学习平台
本文主要介绍如何利用大数据技术搭建机器学习平台,包括数据处理、特征提取、算法训练以及模型评估等方面。同时,还介绍了平台的架构和展望,包括个性化、融合其他算法包等方面。
挖掘大数据
2017/12/27
3.6K2
如何提速机器学习模型训练
注: 本文中有一些超链接,在微信中不能打开,可以转到我的博客,地址:https://qiwsir.github.io/2021/02/16/speed-up-sklearn/,或者点击文末的“原文链接”查看。
老齐
2021/03/11
1.2K0
如何提速机器学习模型训练
如何口述机器学习模型原理
作者:Ricky翘 zhuanlan.zhihu.com/p/34128571 有时碰到跟别人聊起模型的熟悉时,不免要阐述下模型的原理,但一般口头交流都比较难,因为脑海里面都是一些公式,似乎从功利角度有必要把模型原理用文字表达一遍,所以自己整理了下机器学习的部分,有遗漏或者不对的地方也请多多指教~
统计学家
2019/07/22
8420
如何口述机器学习模型原理

相似问题

小数据集机器学习模型的改进

10

如何改进机器学习模型?

20

如何利用原始数据集学习的机器学习模型生成合成数据集?

30

总结特性会改进机器学习模型吗?

10

利用多个数据集拟合小数据集模型预测的改进

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档