前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习笔记——数据集分割

机器学习笔记——数据集分割

作者头像
数据小磨坊
发布2018-10-23 10:01:49
1.9K0
发布2018-10-23 10:01:49
举报
文章被收录于专栏:数据小魔方数据小魔方

在模型训练之前,要首先划分训练集与测试集,如何对原始数据集进行训练集与测试集的划分?训练集与测试集的比例各占多少?如何保证各自内部标签分布平衡都会影响模型训练的最终效果。

好在R和Python中有现成的数据集分割函数,避免手动写函数导致划分比例不合理、训练集与测试集的样本的结构与总体不均衡的问题。

R语言中caTools包中的sample.split函数可以用来自动将原始数据集分割成训练集和测试集。

方法一——caTools中的sample.split函数

代码语言:javascript
复制
library("caTools")
set.seed(123)

data(iris)
table(iris$Species)

    setosa versicolor  virginica 
        50         50         50

split = sample.split(iris$Species,SplitRatio = .8)
train_data = subset(iris,split == TRUE)
test_data  = subset(iris,split == FALSE)

table(train_data$Species)
    setosa versicolor  virginica 
        40         40         40

table(test_data$Species)
    setosa versicolor  virginica 
        10         10         10

划分方法二——createDataPartition函数

代码语言:javascript
复制
library("caret")
split1  <- createDataPartition(y=iris$Species,p=0.8,list = FALSE)

train_data <- iris[split1,]
table(train_data$Species)
    setosa versicolor  virginica 
        40         40         40 

test_data  <- iris[-split1,]
table(test_data$Species)
    setosa versicolor  virginica 
        10         10         10

可以看到无论是caTools包中的sample.split函数还是caret包中的createDataPartition函数,都针对分类标签做了混合后的分层随机抽样,这样可以保证训练集与测试集内的各类标签分布比例与样本总体的分布比例严格一致,否则如果仅仅使用sample函数,无法达到分层随机抽样的目的。

Python的sk-learn库中也有现成的数据集分割工具可用。

代码语言:javascript
复制
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import pandas as pd

iris  = load_iris()
data = iris['data']
iris_data = pd.DataFrame(
         data = data,
         columns = ['sepal_length','sepal_width','petal_length','petal_width']
        )
iris_data["Species"] = iris[ 'target']
iris_data["Species"] = iris_data["Species"].map({0:"setosa",1:"versicolor",2:"virginica"})

iris_data["Species"].value_counts()
versicolor    50
virginica     50
setosa        50
Name: Species, dtype: int64

x,y = iris_data.iloc[:,0:-1],iris_data.iloc[:,-1]
train_data,test_data,train_target,test_target = train_test_split(x,y,test_size = 0.2,stratify = y)

train_target.value_counts()
test_target.value_counts()

这里有一个细节,其中train_test_split函数中有两个特殊的参数:shuffle和stratify。

shuffle参数相当于对原始数据进行混合抽样,相当于扑克牌发牌前的洗牌,保证随机性。

stratify参数则可以保证训练集&测试集中样本标签结构比例与指定的总体中样本标签结构比例一致,特别是在原始数据中样本标签分布不均衡时非常有用,达到分层随机抽样的目的。

而对于训练集与测试集的划分比例上来看,目前没有一个统一的比例标准,在机器学习类的参考资料中,推荐的比例是训练集和测试集的比例保持在1:2~1:4之间为佳。

倘若使用验证集,则建议保持6:2:2左右的训练集、验证集及测试集比例。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-09-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据小魔方 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 划分方法二——createDataPartition函数
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档