我正在使用partykit:ctree来探索我的数据集,这是一套大约15,000次海滩调查,调查了来自50个不同类别的碎片的数量。数据中有大量的零,碎片总量的分布也很大。我也有一系列的自变量,包括一些因素,一些计数数据,和一些连续数据。
下面是一个非常小的样本数据集:
Counts<- as.data.frame(matrix (rpois(100,1), ncol=5))
colnames(Counts)<-c("Glass", "HardPlastic", "SoftPlastic", "PlasticBag", "Fragments")
State<-rep(c("CA","OR","WA"), each=6)
Counts$State<-c(State,"CA","OR")
County<-rep((1:9), each=2)
Counts$County<-c(County, 1,4)
Counts$Distance<-c(10, 15, 13, 19, 18, 23, 38, 40, 49, 44, 47, 45, 52, 53, 55, 59, 51, 53, 14, 33)
Year<-rep(c("2010","2011","2012"), times=7)
Counts$Year<-Year[1:20]
我使用了以下代码来划分我的数据:
M.2<-ctree(Glass + HardPlastic + SoftPlastic + PlasticBag + Fragments ~
as.factor (State) + as.factor (County) + Distance + as.factor (Year), data=Counts)
plot(M.2, terminal_panel = node_barplot, cex = 0.5)
这产生了一个可爱的图表,但我如何提取每个终端节点的成员资格呢?如果只有几个项目,我可以在图表中看到,但是一旦可能的类别数增加到50个,用图形来看它就变得更加困难了。我希望看到节点中包含的信息,特别是每个终端节点中包含的每个单独类别的相对概率。
我知道,如果这是一个BinaryTree类,我可以使用节点参数,但是当我查询这个类(M.2)时,它告诉我它是来自constaparty类,并且我还无法找到如何从这个类中获取节点信息。
我还遇到了另一个问题,那就是当我在我的样本数据集中运行ctree时,它每次都会崩溃R!它适用于我的实际数据集,但我不知道样本集有什么问题。
编辑:所需的输出将大致如下所示:
Node15:
硬塑料30
玻璃5
软塑料23
塑料袋6
碎片. 12
发布于 2016-05-03 08:02:54
我只是与软件包维护人员(托尔斯滕·霍桑饰)和ctree()
的主要作者通过电子邮件发送邮件,这样的请求才是最适合的对象。(他目前没有参加。)显然,这是partykit
版本的ctree()
中的一个bug,他正在致力于解决这个问题。就目前而言,最好使用旧的party
版本,并希望一个固定的partykit
版本很快就会面世。
https://stackoverflow.com/questions/36732624
复制相似问题