腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
当
对
两个
分类
变量
上
的
连续变量
使用
gtsummary
进行
汇总
时
,
如何
添加
每个
类
别的
观察
值
数量
?
nested
、
categories
、
summarize
、
continuous
、
gtsummary
"Age: Grade", .x)), missing = "no") ) %>% tbl_stack() %>% as_tibble()
每个
年龄:等级
的
观察
次数应该增加到哪里?
浏览 14
提问于2020-11-20
得票数 1
3
回答
如何
在R中将一个向量分成具有相等
数量
的
观察
值
的
组?
r
、
classification
、
categorical-data
、
quantile
如何
在R中将一个向量分成包含大致相等
数量
的
观察
值
的
组?我还需要知道切入点
的
值
是什么,以便
对
未来
的
输入
进行
分类
。 因此,基本
上
,我正在尝试将
连续变量
转换为
分类
变量
,
每个
类别中
的
观察
值
数量
相等。我需要知道
每个
浏览 53
提问于2021-09-07
得票数 1
回答已采纳
1
回答
如何
在SAS for KNN中
使用
Proc Discrim处理死锁?
sas
、
knn
我有一个运行KNN分析
的
proc discrim语句。当我设置k=1
时
,它会给所有东西分配一个类别(正如预期
的
那样)。但是
当
k>1
时
,它留下了一些未分配
的
观测
值
(将类别设置为其他)。我假设这是
两个
或更多类
别的
死锁投票
的
结果。我知道有办法绕过这个问题,要么随机选择一张陷入僵局
的
选票作为答案,要么选择最近
的
一张作为答案。 proc discrim中是否提供此功能?
如何</
浏览 0
提问于2012-12-20
得票数 0
回答已采纳
2
回答
R中
使用
混合模型
的
潜在
类
分析
r
、
statistics
、
cluster-analysis
、
mixture-model
我试图在R中执行潜在
的
类
分析,但我有一些
变量
既是连续
的
,也是
分类
的
。此外,我有52个状态或行,我正在尝试有52个潜在
的
类
或子组。我开始用R编写代码,但是我得到了一个错误。= contr.funs[1 + isOF[nn]]) : contrasts can be applied only to factors with 2 or more levels 这是我
的
R
浏览 9
提问于2018-12-14
得票数 1
1
回答
基于树
的
分类
模型特征重要性及规则推导
scikit-learn
、
random-forest
、
decision-trees
、
feature-construction
我有一个具有目标0/1 (二进制
分类
任务)
的
分类
和连续
值
的
数据集。由于我需要在事件或目标的发生中找到模式和关系,所以我认为我应该
使用
决策树。然而,问题是,我有
两个
范畴
变量
,分别有700和150
类
,其余
变量
是数值/连续
的
。对于这组
变量
,我是否可以
使用
滑雪板中
的
随机森林来估计特性
的</e
浏览 0
提问于2020-01-14
得票数 0
1
回答
在
两个
不同
的
水平
上
分解相同
的
分类
变量
r
我似乎在
使用
我
的
分类
变量
时
遇到了问题。我在一个很小
的
数据集中也有同样
的
单词,比如"a“。然而,R选择了
两个
级
别的
"a“,
每个
级别都有自己独特
的
观察
值
数量
。如果我
使用
摘要(Data)。例如,我得到(对于10个唯一
的
观察
值
和
分类
变量<
浏览 0
提问于2019-11-27
得票数 0
1
回答
匹配后
的
标准化差异分数-包间
的
差异
r
、
gtsummary
、
propensity-score-matching
我
使用
R中
的
MatchIt包
进行
精确匹配。当我完成匹配并
使用
钴检查平衡
时
,我被告知,对于我
的
分类
变量
,Diff.Adj为0.00,对于
连续变量
,为-0.06。但是,当我在in摘要中创建一个表
时
,这些
变量
的
标准差异分数为:
分类
变量
为0.65,
连续变量
为0.30。 有人能解释一下这
两个
包裹之间
的
差
浏览 25
提问于2022-03-23
得票数 -1
回答已采纳
1
回答
探索
变量
以指导xgboost调优
visualization
、
xgboost
、
hyperparameter-tuning
简而言之:在为xgboost选择参数值
时
,
如何
考虑
变量
的
类型和分布?示例:具有二进制结果
变量
和二进制/连续预测器混合
的
数
浏览 0
提问于2020-10-09
得票数 4
回答已采纳
2
回答
在决策树
的
CART算法中,基尼指数是
如何
最小化
的
?
optimization
、
neural-network
、
cart
、
decision-tree
、
backpropagation
例如,对于神经网络,我
使用
反向传播算法将代价函数最小化。在决策树中是否存在与基尼指数相当
的
东西? CART算法总是说:“选择集A
的
分区,这使基尼指数最小化”,但是我怎么才能从数学上得到这个划分呢?
浏览 2
提问于2019-08-30
得票数 0
回答已采纳
2
回答
决策树方法用于数据分析
的
局限性是什么?
machine-learning
、
classification
、
random-forest
、
decision-trees
据我所知,决策树方法用于数据分析
的
主要局限性是:倾向于方差或水平更大
的
预测因子。对于样本容量小
的
响应,预测精度较差。还有其他
的
吗?它们
对
同质性、正态性、独立性等传统统计假设是否稳健?
浏览 0
提问于2017-12-14
得票数 4
1
回答
“TSS矩阵是不确定
的
。必须有太多
的
缺失
值
。
当
使用
nbclust
时
,不能计算索引”。
r
、
cluster-analysis
我想确定
使用
NbClust
进行
聚
类
的
最佳k
值
,package.My数据具有
连续变量
和
分类
变量
,因此我
使用
了
使用
集群包中
的
daisy()计算
的
不同矩阵。我
使用
了下面的代码: max.nc = 5,method = "com
浏览 4
提问于2017-09-06
得票数 5
2
回答
如何
使用
rpart?
r
我无法用rpart获得太多
的
信息。loss, yval, (yprob)为什么rpart不提供更多
的
信息实质
上
,我想找出: rpart是否包括测试(V2 == 2) ->响应统计数据,如果没有,我
如何
使它包括这样
的
测试和结果?
浏览 2
提问于2014-04-30
得票数 7
3
回答
我们能用二元交叉熵
进行
多
类
分类
吗?
keras
、
cnn
、
loss-function
在此链接中,作者实现了一个
分类
为15个
类
的
神经网络,并
使用
二元交叉熵作为损失函数。但是既然它是多
类
分类
,那么
使用
二进制交叉熵有效吗?还是我们应该用绝对交叉熵代替?
浏览 0
提问于2019-09-09
得票数 5
1
回答
从
连续变量
w/缩放数据创建
分类
变量
r
、
categorical-data
、
continuous
我在这个社区里潜伏了一段时间,但这是我
的
第一个问题.我想要做
的
是一个潜在
的
类
分析(从技术
上
讲,这些是
连续变量
),但是我必须首先
对
每个
变量
的
值
进行
缩放。一旦我扩展,我现在有32个
变量
,
每个
缩放,从负到正( poLCA函数不能
使用
负数或零,我相信)。有关我
的</e
浏览 3
提问于2017-08-12
得票数 0
回答已采纳
1
回答
机器学习有哪些算法?
机器学习
、
神经网络
、
深度学习
、
人工智能
、
编程算法
浏览 496
提问于2019-02-15
回答已采纳
3
回答
决策树-
如何
对
分类
特征
进行
拆分?
machine-learning
、
random-forest
、
decision-trees
、
algorithms
决策树在执行递归二进制分裂
时
,选择一个自
变量
(例如X_j)和一个阈值(例如t),使得预测器空间被分割成区域{X|X_j < t}和{X|X_j >= t},从而导致成本函数
的
最大降低。现在让我们假设我们有一个
变量
,其中
的
categorical
值
在{X}中。假设我们
对
它
进行
了标签编码,它
的
值
在0到9之间(10个类别)。如果DT用上述算法分割一个节点,并将这10个
值
视为真数值,那么它不会导致
浏览 0
提问于2019-08-08
得票数 9
回答已采纳
1
回答
predict_proba比较
classification
、
linear-regression
我想预测单个credit_balance大于
值
N为真的概率QDA precit_proba是[[9.99999999e-01 1.24419207e-09]] 我们应该看哪些参数来决定哪种
分类
是最适合预测模型
的
浏览 0
提问于2018-04-16
得票数 1
1
回答
分组后从
两个
表中减去列(用于库存)
php
、
mysql
因此,对于我
的
库存系统,我有
两个
具有相同列名
的
表(一个用于生产库存,另一个用于运送库存)。我想出了
如何
将列按产品分组,然后对
数量
进行
求和。因此,我想在这
两个
表
上
运行这个查询,然后从
每个
匹配产品
变量
的
表中减去quantity列。我
使用
它来
添加
组和和股票总数(in): $query = "SELECT id, type, color, product, S
浏览 3
提问于2012-06-17
得票数 2
4
回答
如何
在数据集中
使用
连续变量
和
分类
变量
创建决策树?
machine-learning
、
decision-trees
假设我在一个数据集中有3个
分类
属性和2个连续属性。
如何
使用
这5个
变量
构建决策树?编辑: 对于
分类
变量
,可以很容易地说,我们只将它们除以{yes/no}并计算出gini
的
总增益,但是我
的
怀疑主要是关于连续属性
的
。假设我有一个像{1,2,3,4,5}这样
的
连续属性
的
值
。我
的
分裂点选择是什么?它们是在
每个
数据点(如{<1,>=1
浏览 0
提问于2018-06-04
得票数 24
回答已采纳
13
回答
混合数值和
分类
数据
的
K-均值聚
类
data-mining
、
clustering
、
octave
、
k-means
、
categorical-data
我
的
数据集包含许多数字属性和一个
分类
。., NumericAttrN, CategoricalAttr, 其中CategoricalAttr采用三个可能
的
值
之一:CategoricalAttrValue1、CategoricalAttrValue2我
使用
默认
的
八阶K均值聚
类
算法
的
实现。它只适用于数字数据。因此,我
的
问题是:将CategoricalAttr
分类
属性拆分为三个数值(二进制)
变量
(如IsC
浏览 0
提问于2014-05-14
得票数 200
回答已采纳
点击加载更多
相关
资讯
申请评分卡模型中常用的一些特征工程方
教你如何方便正确地使用Python和Pandas来匿名信息
特征工程之分箱法
数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
24个简单、好看的可视化图表用法介绍!数据分析小白必看
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券