我在机器学习方面绝对是个菜鸟。我有一个数据集,其中的值如下:
state
hour
day of the week,
device platform,
user agent,
以及基于是否有点击的是或否。
这些数据主要是字符串值,可以从标题中推断出来。对于zip、设备平台id等数据,它们的数量也很多。
此外,与非点击记录的数量相比,点击记录的数量是非常小的数字。
那么,基于这些结果,我应该如何训练模型?另外,我应该实现什么算法-回归、分类或决策树?提前感谢!!
我希望我的机器学习算法能够了解两个类之间的区别,实际上是picture of X或picture of something else。
我的样本数据是:
500 pictures of X (我知道它很低,不幸的是我不能做太多)
1 000 000 pictures of something else
问:我应该和所有的100万pictures of something else一起进行培训吗?
还是这种不平衡会产生负面影响?例如,它会不会“淹没”其他数据?
备注:
计算能力和时间不是一个问题。
在现实世界中,pictures of X占数据的5%到10%,所以我认为我没有阶级不平衡的问题。
我觉得可能有人问过这个问题,但我不知道如何搜索它。基本上,我正在使用随机森林构建一个二进制分类器,并且有很多积极的结果,而不是消极的结果(2k vs ~20)。准确率当然是非常好的,因为测试集通常有0-1个负样本和超过1000个正样本。如果机器学习对于这种情况仍然可行,那么处理如此少量的负面情况的最佳方法是什么?或者数据只是无用的?
我正在学习R,并试图生成一些直方图。我的数据集被称为"test“,它有一个名为”道布“的字段,它代表我在x轴上使用的出生日期。我想在x轴上显示从1:31开始的所有值。我的命令是:
qplot(x = dob_day, data = fb) +
scale_x_discrete(breaks = 1:31)
我在终端中得到以下错误。
Error: StatBin requires a continuous x variable the x variable is discrete. Perhaps you want stat="count"?
我读了一些SO的帖子,但