当对两个分类变量上的连续变量使用gtsummary进行汇总时，如何添加每个类别的观察值数量？

文章/答案/技术大牛

发布

1回答

nested、categories、summarize、continuous、gtsummary

"Age: Grade", .x)), missing = "no") ) %>% tbl_stack() %>% as_tibble() 每个年龄:等级的观察次数应该增加到哪里？

浏览 14提问于2020-11-20得票数 1

3回答

如何在R中将一个向量分成具有相等数量的观察值的组？

r、classification、categorical-data、quantile

如何在R中将一个向量分成包含大致相等数量的观察值的组？我还需要知道切入点的值是什么，以便对未来的输入进行分类。因此，基本上，我正在尝试将连续变量转换为分类变量，每个类别中的观察值数量相等。我需要知道每个

浏览 53提问于2021-09-07得票数 1

回答已采纳

1回答

如何在SAS for KNN中使用Proc Discrim处理死锁？

sas、knn

我有一个运行KNN分析的proc discrim语句。当我设置k=1时，它会给所有东西分配一个类别(正如预期的那样)。但是当k>1时，它留下了一些未分配的观测值(将类别设置为其他)。我假设这是两个或更多类别的死锁投票的结果。我知道有办法绕过这个问题，要么随机选择一张陷入僵局的选票作为答案，要么选择最近的一张作为答案。 proc discrim中是否提供此功能？如何</

浏览 0提问于2012-12-20得票数 0

回答已采纳

2回答

R中使用混合模型的潜在类分析

r、statistics、cluster-analysis、mixture-model

我试图在R中执行潜在的类分析，但我有一些变量既是连续的，也是分类的。此外，我有52个状态或行，我正在尝试有52个潜在的类或子组。我开始用R编写代码，但是我得到了一个错误。= contr.funs[1 + isOF[nn]]) : contrasts can be applied only to factors with 2 or more levels 这是我的R

浏览 9提问于2018-12-14得票数 1

1回答

基于树的分类模型特征重要性及规则推导

scikit-learn、random-forest、decision-trees、feature-construction

我有一个具有目标0/1 (二进制分类任务)的分类和连续值的数据集。由于我需要在事件或目标的发生中找到模式和关系，所以我认为我应该使用决策树。然而，问题是，我有两个范畴变量，分别有700和150类，其余变量是数值/连续的。对于这组变量，我是否可以使用滑雪板中的随机森林来估计特性的</e

浏览 0提问于2020-01-14得票数 0

1回答

在两个不同的水平上分解相同的分类变量

我似乎在使用我的分类变量时遇到了问题。我在一个很小的数据集中也有同样的单词，比如"a“。然而，R选择了两个级别的"a“，每个级别都有自己独特的观察值数量。如果我使用摘要(Data)。例如，我得到(对于10个唯一的观察值和分类变量<

浏览 0提问于2019-11-27得票数 0

1回答

匹配后的标准化差异分数-包间的差异

r、gtsummary、propensity-score-matching

我使用R中的MatchIt包进行精确匹配。当我完成匹配并使用钴检查平衡时，我被告知，对于我的分类变量，Diff.Adj为0.00，对于连续变量，为-0.06。但是，当我在in摘要中创建一个表时，这些变量的标准差异分数为:分类变量为0.65，连续变量为0.30。有人能解释一下这两个包裹之间的差

浏览 25提问于2022-03-23得票数 -1

回答已采纳

1回答

探索变量以指导xgboost调优

visualization、xgboost、hyperparameter-tuning

简而言之:在为xgboost选择参数值时，如何考虑变量的类型和分布？示例:具有二进制结果变量和二进制/连续预测器混合的数

浏览 0提问于2020-10-09得票数 4

回答已采纳

2回答

在决策树的CART算法中，基尼指数是如何最小化的？

optimization、neural-network、cart、decision-tree、backpropagation

例如，对于神经网络，我使用反向传播算法将代价函数最小化。在决策树中是否存在与基尼指数相当的东西？ CART算法总是说：“选择集A的分区，这使基尼指数最小化”，但是我怎么才能从数学上得到这个划分呢？

浏览 2提问于2019-08-30得票数 0

回答已采纳

2回答

决策树方法用于数据分析的局限性是什么？

machine-learning、classification、random-forest、decision-trees

据我所知，决策树方法用于数据分析的主要局限性是：倾向于方差或水平更大的预测因子。对于样本容量小的响应，预测精度较差。还有其他的吗？它们对同质性、正态性、独立性等传统统计假设是否稳健？

浏览 0提问于2017-12-14得票数 4

1回答

“TSS矩阵是不确定的。必须有太多的缺失值。当使用nbclust时，不能计算索引”。

r、cluster-analysis

我想确定使用NbClust进行聚类的最佳k值，package.My数据具有连续变量和分类变量，因此我使用了使用集群包中的daisy()计算的不同矩阵。我使用了下面的代码： max.nc = 5,method = "com

浏览 4提问于2017-09-06得票数 5

2回答

如何使用rpart？

我无法用rpart获得太多的信息。loss, yval, (yprob)为什么rpart不提供更多的信息实质上，我想找出： rpart是否包括测试(V2 == 2) ->响应统计数据，如果没有，我如何使它包括这样的测试和结果？

浏览 2提问于2014-04-30得票数 7

3回答

我们能用二元交叉熵进行多类分类吗？

keras、cnn、loss-function

在此链接中，作者实现了一个分类为15个类的神经网络，并使用二元交叉熵作为损失函数。但是既然它是多类分类，那么使用二进制交叉熵有效吗？还是我们应该用绝对交叉熵代替？

浏览 0提问于2019-09-09得票数 5

1回答

从连续变量w/缩放数据创建分类变量

r、categorical-data、continuous

我在这个社区里潜伏了一段时间，但这是我的第一个问题.我想要做的是一个潜在的类分析(从技术上讲，这些是连续变量)，但是我必须首先对每个变量的值进行缩放。一旦我扩展，我现在有32个变量，每个缩放，从负到正( poLCA函数不能使用负数或零，我相信)。有关我的</e

浏览 3提问于2017-08-12得票数 0

回答已采纳

1回答

机器学习有哪些算法？

机器学习、神经网络、深度学习、人工智能、编程算法

浏览 496提问于2019-02-15

回答已采纳

3回答

决策树-如何对分类特征进行拆分？

machine-learning、random-forest、decision-trees、algorithms

决策树在执行递归二进制分裂时，选择一个自变量(例如X_j)和一个阈值(例如t)，使得预测器空间被分割成区域{X|X_j < t}和{X|X_j >= t}，从而导致成本函数的最大降低。现在让我们假设我们有一个变量，其中的categorical值在{X}中。假设我们对它进行了标签编码，它的值在0到9之间(10个类别)。如果DT用上述算法分割一个节点，并将这10个值视为真数值，那么它不会导致

浏览 0提问于2019-08-08得票数 9

回答已采纳

1回答

predict_proba比较

classification、linear-regression

我想预测单个credit_balance大于值N为真的概率QDA precit_proba是[[9.99999999e-01 1.24419207e-09]] 我们应该看哪些参数来决定哪种分类是最适合预测模型的

浏览 0提问于2018-04-16得票数 1

1回答

分组后从两个表中减去列(用于库存)

php、mysql

因此，对于我的库存系统，我有两个具有相同列名的表(一个用于生产库存，另一个用于运送库存)。我想出了如何将列按产品分组，然后对数量进行求和。因此，我想在这两个表上运行这个查询，然后从每个匹配产品变量的表中减去quantity列。我使用它来添加组和和股票总数(in)： $query = "SELECT id, type, color, product, S

浏览 3提问于2012-06-17得票数 2

4回答

如何在数据集中使用连续变量和分类变量创建决策树？

machine-learning、decision-trees

假设我在一个数据集中有3个分类属性和2个连续属性。如何使用这5个变量构建决策树？编辑：对于分类变量，可以很容易地说，我们只将它们除以{yes/no}并计算出gini的总增益，但是我的怀疑主要是关于连续属性的。假设我有一个像{1,2,3,4,5}这样的连续属性的值。我的分裂点选择是什么？它们是在每个数据点(如{<1,>=1

浏览 0提问于2018-06-04得票数 24

回答已采纳

13回答

混合数值和分类数据的K-均值聚类

data-mining、clustering、octave、k-means、categorical-data

我的数据集包含许多数字属性和一个分类。., NumericAttrN, CategoricalAttr，其中CategoricalAttr采用三个可能的值之一：CategoricalAttrValue1、CategoricalAttrValue2我使用默认的八阶K均值聚类算法的实现。它只适用于数字数据。因此，我的问题是:将CategoricalAttr分类属性拆分为三个数值(二进制)变量(如IsC

浏览 0提问于2014-05-14得票数 200

回答已采纳

点击加载更多