文章/答案/技术大牛

发布

社区首页 >问答首页 >热门项目建议-时间敏感数据-数据挖掘

问热门项目建议-时间敏感数据-数据挖掘
EN

Stack Overflow用户

提问于 2012-11-27 21:25:33

回答 1查看 168关注 0票数 0

我是数据挖掘领域的专家。我正在研究非常有趣的数据挖掘问题。数据描述如下：

数据是时间敏感的。项目属性取决于时间因素及其类别标签。我将每周数据分组为训练或测试记录的一个实例。每周，一些项目属性可能会随着其受欢迎程度而变化(即类别标签)。

下面是一些示例数据：

IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestAc‌tress,NumberOfNominations,NumberOfAwards,..,Label
-------------------------------------------------
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1

我的研究顾问建议使用朴素贝叶斯算法，它可以适应这种随时间变化的动态数据。

我使用2000-2004年的数据作为2005年的测试数据。如果我在项目数据集中包含周-年属性，那么在朴素贝叶斯中概率为0。在按时间顺序组织数据后，是否可以从我的数据集中省略此属性？

此外，如何在阅读新的测试用例时调整我的模型？因为新的测试用例可能会导致类标签的更改？

data-mining

time-series

classification

prediction

machine-learning

回答 1

Stack Overflow用户

发布于 2012-11-27 21:30:02

你能提供更多关于你的方法的见解吗？例如，您使用的是R、SPSS、Python、SQL Server2008R2还是RapidMiner 5.2？如果您可以包含非常小(3-4行段)的一些数据，这将帮助人们找出如何解决这一问题。

要了解您正在查看的内容，一种直接的方法是进行随机森林/决策树和K-Means聚类，以确定数据中的公共分离点。您是否已经快速浏览了数据的直方图、平均值和异常值？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/13585250

复制

相似问题

问热门项目建议-时间敏感数据-数据挖掘
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问热门项目建议-时间敏感数据-数据挖掘EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问热门项目建议-时间敏感数据-数据挖掘
EN