Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >重要变量(数值)的数据挖掘:从哪里开始?

重要变量(数值)的数据挖掘:从哪里开始?
EN

Stack Overflow用户
提问于 2011-09-25 14:00:13
回答 1查看 2.5K关注 0票数 4

我在外汇市场上有一个交易策略,我正在努力改进。

我有一个很大的表(100k+行),它表示市场中的每一种可能的交易、交易类型(买入或卖出)、交易结束后的利润/损失,以及10个左右的额外变量,表示在交易开始时的各种市场衡量标准。

我正在尝试找出这10个变量中是否有任何变量与利润/亏损有显着相关。

例如,假设变量X的范围从50到-50。买入订单的X平均值为25,卖出订单的X平均值为-25。

如果大多数有利可图的买入订单的价值为X> 25,而大多数有利可图的卖出订单的价值为X< -25,那么我会认为X与利润的关系是重要的。

我希望这是一个好的起点。我已经安装了RapidMiner 5,以防有人能给我一个具体的建议。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-09-25 22:51:44

决策树可能是最好的起点。

树本身是特征重要性排名(或OP中所述的重要变量)的可视摘要。

  • 为您提供了整个分类/回归分析的可视化表示(以二叉树的形式),这使其有别于我所知道的任何其他分析/统计技术;
  • 决策树算法只需要对数据进行很少的预处理,无需归一化,无需重新缩放,无需将离散变量转换为整数(例如,男性/女性=> 0/1);它们可以接受分类(离散)变量和连续变量,并且许多实现可以处理不完整的数据(数据矩阵中的某些行缺少值);和
  • 一样,树本身是特征重要性排名的可视摘要

(即,重要变量)--最重要的变量是

根节点,并且比两个子节点更重要,而这两个子节点又比它们的四个子节点的总和更重要。“显着性”在这里指的是解释的方差百分比(相对于某个响应变量,也就是“目标变量”或你试图预测的东西)。一个条件:通过对决策树的目测检查,您无法区分变量重要性和

在相同等级的节点之间。

如果您以前没有使用过它们,下面是决策树的工作原理:算法将遍历数据中的每个变量(列)和每个变量的每个值,并根据每个值将数据分成两个子集。这些拆分中的哪一个实际上是由算法选择的--即拆分标准是什么?选择最“净化”数据(即最大化信息增益)的特定变量/值组合来拆分数据(该变量/值组合通常表示为节点的标签)。这个简单的启发式方法只是递归地执行,直到剩余的数据子集是纯的,或者进一步的拆分不会增加信息增益。

关于数据集中变量的“重要性”,这说明了什么?良好的重要性通过与根节点的接近程度来表示--即层次级别或等级。

一个建议:决策树处理分类数据和离散数据通常没有问题;然而,根据我的经验,如果响应变量(您试图使用所有其他变量预测的变量)是离散的/分类的而不是连续的,则决策树算法总是执行得更好。看起来你的分析可能是连续的,在这种情况下,会考虑将其离散化(除非这样做只会导致整个分析没有意义)。为此,只需使用对您的问题域有意义的参数(bin大小、bin数量和bin边缘)将响应变量值分类--例如,如果r/v由从1到100的“连续值”组成,您可能会明智地将它们分类为5个分类,0-20、21-40、41-60等等。

例如,在您的问题中,假设数据中的一个变量是X,它有5个值(10、20、25、50、100);还假设将此变量上的数据与第三个值(25)分开会产生两个几乎纯的子集--一个是低值,一个是高值。只要这种纯度高于通过对其他值进行拆分而获得的子集的纯度,数据就会在该变量/值对上进行拆分。

RapidMiner确实有一个决策树实现,而且网上似乎有相当多的教程(例如,来自YouTube,herehere)。(请注意,我没有使用过R/M中的决策树模块,也没有使用过RapidMiner。)

我会考虑的另一组技术通常被归类为rubric 降维。特征提取和特征选择可能是D/R之后最常见的两个术语。最广泛使用的是主成分分析( PCA ),它基于协方差矩阵(从导出到数据矩阵)的特征向量分解。

这种特征向量分解的一个直接结果是每个特征向量所占数据的可变性的分数。仅从这个结果,您就可以确定需要多少维度来解释数据中95%的可变性

如果RapidMiner具有主成分分析或其他类似功能的降维技术,那么在哪里可以找到它并不明显。我确实知道RapidMiner有一个R扩展,当然可以让你在RapidMiner.R中访问R。R有很多PCA库(包)。我在下面提到的所有包都可以在CRAN上找到,这意味着那里的任何PCA包都满足文档和小插图(代码示例)的最低包要求。我可以推荐pcaPP (基于投影寻踪的稳健主成分分析)。

此外,我可以推荐两个关于PCA的很好的分步教程。第一个来自NIST Engineering Statistics Handbook。第二个是独立分量分析的tutorial,而不是主成分分析,但我在这里提到了它,因为它是一个很好的教程,这两种技术用于类似的目的。

票数 16
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7545962

复制
相关文章
NEO4J 图数据库哪里和哪里 从哪里开始
上期已经安装了图数据库,本期就该讨论到底这个图数据库里面的一些基本的概念和如何操作。最近听到一句话,年轻不年轻,不是看年龄,而是看你对新鲜事物的热情,即使你20岁,谈起新事物也是一脸的不屑,只能说明身体和灵魂分了家。闲话不谈 回归正题。
AustinDatabases
2020/05/09
3.1K0
数据挖掘的7个重要技术
企鹅号小编
2018/01/09
1.1K0
数据挖掘的7个重要技术
数据分析从哪里开始入门学习,可以推荐的书有哪些?
数据行业在迅速的发展,几乎每天都会出现新的技术和方法。因此,想要跟上这个行业的步伐是有挑战性的。之前CDA数据分析师曾列出了15位在科技和数据科学领域最具影响力人物,他们不仅仅是数据科学专业人士和关注该领域人群的灵感来源,同时关注他们也确保你能够了解该领域的发展动向。
CDA数据分析师
2018/04/12
5.5K0
数据分析从哪里开始入门学习,可以推荐的书有哪些?
从0开始的Python学习008变量
在我们定义函数的过程中,函数内外具有相同名称的变量是没有任何关系的。变量的名称对于函数来说是局部的,而它所在的代码块就是它的作用域。
Happy、Liu
2019/04/24
4910
从0开始的Python学习008变量
数据分析从哪里开始入门学习,可以推荐的书有哪些?
作者 Gam 本文为CDA志愿者投稿作品,转载需授权 数据行业在迅速的发展,几乎每天都会出现新的技术和方法。因此,想要跟上这个行业的步伐是有挑战性的。之前CDA数据分析师曾列出了15位在科技和数据
CDA数据分析师
2018/04/19
1.1K0
数据分析从哪里开始入门学习,可以推荐的书有哪些?
《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)
摘要: 你是否为研究数据挖掘预测问题而感到兴奋?那么如何开始呢,本案例选自Kaggle上的数据竞赛的一个数据竞赛项目《泰坦尼克:灾难中的机器学习》,案例涉及一个小型数据集及到一些有趣且易于理解的参数,是一个完美的机器学习入口。 泰坦尼克号在进行从英国到纽约的处女航时,不幸的撞到了冰山上并沉没。在这场比赛中,你必须预测泰坦尼克号上乘客们的命运。 在这场灾难中,惊恐的人们争先恐后地逃离正在沉没的船是最混乱的事。“女士和儿童优先”是这次灾难中执行的著名准则。由于救生艇数量不足,只有一小部分乘客存活下来。在接
小莹莹
2018/04/23
2.4K0
《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)
《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(二)
第二部分:使用分类变量预测存活结果 在《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(一)中,我们介绍了R中有关导入数据的知识。我们仅用目标变量作为预测变量,现在试着用数据集中的其他变量来更有效的预测结果吧。 这场灾难中,“妇女和儿童优先”是为人熟知的,所以我们首先看看性别变量和年龄变量,观察一下它们能够导致生存结果的不同。我们首先看一下乘客的性别。将数据载入R后,看一下这个变量的摘要: > summary(train$Sex) female male 314 577 船上的大部分
小莹莹
2018/04/23
1.3K0
《Kaggle项目实战》 泰坦尼克:从R开始数据挖掘(二)
数据挖掘历史中的重要里程碑
数据挖掘现在随处可见,而它的故事在《点球成金》出版和“棱镜门”事件发生之前就已经开始了。下文叙述的就是数据挖掘的主要里程碑,历史上的第一次,它是怎样发展以及怎样与数据科学和大数据融合。 数据挖掘是在大数据集(即:大数据)上探索和揭示模式规律的计算过程。它是计算机科学的分支,融合了统计学、数据科学、数据库理论和机器学习等众多技术。 1763 年,Thomas Bayes 的论文在他死后发表,他所提出的 Bayes 理论将当前概率与先验概率联系起来。因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以
CSDN技术头条
2018/02/09
1.2K0
web前端学习知识很多,从哪里开始学习呢
随着互联网的深入发展,前端开发工程师已成为市场上极具竞争力的人才。许多学生,包括以前的UI,java,或完全零基础,想学习的前端。许多初学者说,当他们看到前端密集的知识点时会感到头晕目眩。事实上,前端是一个宽泛的主题。但你需要学习前端你不必惊慌,虽然内容比较多,但不是没有规律可循,只要一步一步地不怕学习不好的前端!
千锋哈尔滨IT培训
2019/12/10
5180
web前端学习知识很多,从哪里开始学习呢
数据应用指南:数据从哪里来?
数据如何应用?值得思考、探索和实践! ---- 一切可记录的东西,就是数据。数据从哪里来?找到了源头,才好进行数据获取、整合、分析和应用。 数据从哪里来? 首先,从数据的形态来开,数据可以来自数字
陆勤_数据人网
2018/02/28
1.8K0
数据应用指南:数据从哪里来?
Backstage听起来不错,应该从哪里开始呢?
Backstage 最大的优点之一也带来了无休止的挑战:Backstage 是高度可定制的,允许你轻松构建适合组织需求的独特开发人员门户。这种灵活性的缺点是很难知道从哪里开始。Backstage 可以做很多事情——整合你的技术基础设施和开发人员经验的每个部分——但如果你开始构建一个开发人员门户没有一个计划,很容易被所有的可能性所淹没。为了帮助你形成你的计划,这篇文章将详细介绍 Spotify 是如何设计我们的内部门户的,并为你在设计和构建自己的门户时推荐潜在的模型。
CNCF
2021/07/07
3.2K0
BAT三巨头开始挖掘大数据
阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。 实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时,数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。 概
静一
2018/03/16
8660
数据挖掘入门:从动手实践开始!
本项目以科大讯飞《智能家居使用场景识别挑战赛》为实践背景,详细讲解了数据挖掘分类实践任务的解题思路,针对该项目给出了完整实践代码供大家学习实践。
Datawhale
2022/10/31
4500
数据挖掘入门:从动手实践开始!
Shell:变量数值计算(上)
{message type="warning"}PS:上面的数字及变量必须为整数,不能用小数和字符串{/message}
云计算小黑
2022/12/28
3920
Shell:变量数值计算(下)
如果没有安装bc,用下面命令进行安装 centos systemctl intall -y bc Unbunt apt-get install -y bc
云计算小黑
2022/12/28
3120
云的安全问题(第2部分):从哪里开始
上周,我们发布了帮助公司改善安全状况的最佳实践系列的第1节。安全不再仅仅是安全专家的领域,公司中的每个人,不论其角色如何,都应该秉承践行安全最佳实践的观念。
Techeek
2018/01/11
1.4K0
从大数据中挖掘什么?
大数据挖掘中最重要的是决定挖掘什么样的知识,这是在数据的收集、处理、挖掘的整个过程中都需要认真考虑的问题。本文首先提出大数据挖掘的几项策略,即尽量设想挖掘的场景,尽量多方面收集数据,尽量将数据整合,悉心观察数据特征。之后结合自己在互联网搜索中的大数据挖掘工作经验,分享对这些策略的体会。最后介绍一个互联网搜索中大规模日志数据挖掘的工作,展示大数据挖掘的威力,呈现大数据挖掘的挑战。
IT阅读排行榜
2018/08/15
7280
从大数据中挖掘什么?
从淘宝实战到数据挖掘
拿到市场分析的数据源后就要明确知道,分析市场最主要的价值就在于“先知”,即比竞争对手提前预知市场行情。因此接到市场分析的工作后,不用迷茫,预测是它的价值所在。
博文视点Broadview
2020/06/12
4080
从淘宝实战到数据挖掘
在 Python 中将数值变量转换为分类变量
这篇文章是今天发布的CTGAN的补充,我们可以使用pandas的cut函数将数据进行离散化、将连续变量进行分段汇总,这比写自定义函数要简单的多。
deephub
2021/11/16
2.2K0
Spring Bean 生命周期之“我从哪里来”?懂得这个很重要
上一篇文章 面试还不知道BeanFactory和ApplicationContext的区别? 中说明了接口 Beanfactory 和 ApplicationContext 可以通过 T getBean(String name, Class<T> requiredType) 方法从 Spring 容器中获取bean,区别是,前者是懒加载形式,后者是预加载的形式。那么问题来了:
用户4172423
2019/09/04
7970
Spring Bean 生命周期之“我从哪里来”?懂得这个很重要

相似问题

从数据挖掘开始

62

ffmpeg不支持icod吗?我应该从哪里开始挖掘这个问题?

10

从哪里开始从GKMinmaxStrategist开始?

29

从rJava开始从哪里开始?

22

从PHP开始从哪里开始?

48
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档