首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >热门项目建议-时间敏感数据-数据挖掘

热门项目建议-时间敏感数据-数据挖掘
EN

Stack Overflow用户
提问于 2012-11-27 21:25:33
回答 1查看 168关注 0票数 0

我是数据挖掘领域的专家。我正在研究非常有趣的数据挖掘问题。数据描述如下:

数据是时间敏感的。项目属性取决于时间因素及其类别标签。我将每周数据分组为训练或测试记录的一个实例。每周,一些项目属性可能会随着其受欢迎程度而变化(即类别标签)。

下面是一些示例数据:

代码语言:javascript
运行
复制
IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestAc‌​tress,NumberOfNominations,NumberOfAwards,..,Label
-------------------------------------------------
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1

我的研究顾问建议使用朴素贝叶斯算法,它可以适应这种随时间变化的动态数据。

我使用2000-2004年的数据作为2005年的测试数据。如果我在项目数据集中包含周-年属性,那么在朴素贝叶斯中概率为0。在按时间顺序组织数据后,是否可以从我的数据集中省略此属性?

此外,如何在阅读新的测试用例时调整我的模型?因为新的测试用例可能会导致类标签的更改?

EN

回答 1

Stack Overflow用户

发布于 2012-11-27 21:30:02

你能提供更多关于你的方法的见解吗?例如,您使用的是R、SPSS、Python、SQL Server2008R2还是RapidMiner 5.2?如果您可以包含非常小(3-4行段)的一些数据,这将帮助人们找出如何解决这一问题。

要了解您正在查看的内容,一种直接的方法是进行随机森林/决策树和K-Means聚类,以确定数据中的公共分离点。您是否已经快速浏览了数据的直方图、平均值和异常值?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13585250

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档