Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >tidymodels initial_split函数如何处理连续的地层变量?

tidymodels initial_split函数如何处理连续的地层变量?
EN

Stack Overflow用户
提问于 2021-05-12 10:04:16
回答 1查看 186关注 0票数 1

使用R数据集菱形,我想知道initial_split函数如何对连续变量"x“进行分层,以便创建测试和训练集?ie钻石(initial_split,probability=0.8,strata=x)。我已经读到连续的数据"x“被按顺序分成几个箱,但我不能找出有多少箱,或者箱的数量是否可以由用户设置?

EN

回答 1

Stack Overflow用户

发布于 2021-05-12 20:56:48

在对连续变量进行分层时,initial_split()使用的中断数由breaks参数指定。breaks默认为4个存储箱。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(rsample)
library(ggplot2)
data("diamonds")

initial_split(diamonds, strata = x, breaks = 4)
#> <Analysis/Assess/Total>
#> <40453/13487/53940>

在幕后发生的事情是,make_strata()被用来创建一个因子变量,然后用于分层。系数变量将基于百分位数创建,以确保地层大小大致均匀。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
table(make_strata(diamonds$x, breaks = 4))
#> 
#>    [0,4.71]  (4.71,5.7]  (5.7,6.54] (6.54,10.7] 
#>       13521       13665       13379       13375

table(make_strata(diamonds$x, breaks = 10))
#> 
#>    [0,4.36] (4.36,4.54] (4.54,4.82] (4.82,5.23]  (5.23,5.7]  (5.7,6.08] 
#>        5774        5032        5394        5463        5523        5186 
#> (6.08,6.42]  (6.42,6.7]  (6.7,7.31] (7.31,10.7] 
#>        5407        5429        5458        5274
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67501445

复制
相关文章

相似问题

添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文