腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(24)
视频
沙龙
2
回答
从
数据
集中
抽取
100个
样本
,
共
20个
样本
,
并
绘制
回归线
和
总体
回归线
r
、
regression
、
sample
我有一个
数据
集,其中有两个变量:学习小时数
和
成绩。我想从这个
数据
集中
取大约100个
样本
,每个
样本
20个,
并
显示100条
回归线
和
原始
回归线
。有什么建议吗?
浏览 38
提问于2020-10-27
得票数 1
回答已采纳
1
回答
如何在statsmodel ols中获得“
样本
内”预测值(y hat)?
python
、
regression
、
statsmodels
print(dir(reg))中有一个reg.predict
和
一个reg.get_predict,但它们都没有返回
数据
集中
每个示例(案例或主题)的预测值。它似乎正在等待一个“超出
样本
”的数组来输出这些预测值。
浏览 23
提问于2020-05-24
得票数 1
回答已采纳
2
回答
如何根据多个参数的分布
从
大队列中抽样
r
我有一个虚构的
数据
框架,包括连续变量
和
分类变量 library(dplyr)library(tidyr) # each sample我现在的问题是,我如何
从
df中采样,以便我的sample_df遵循所有参数(性别、年龄、阶段、血液)的分布
和
概率。我考虑将回归模型拟合到df,
并
根据残差选择
样本
,因此每个
样本
到
回归线
的距离。实际的潜在问题是大量的患者
数据
,我想从
浏览 29
提问于2020-04-04
得票数 0
2
回答
采样是降低复杂性的有效方法吗?
clustering
、
sampling
我面临的一个问题是,我需要大量的
数据
来进行聚类。正如我们所知道的,聚类算法可能具有很高的O复杂度,我正在寻找减少算法运行时间的方法。但是,我还没有听说过一些事情,我想知道为什么--简单地
从
我的
数据
集中
获取一个有代表性的
样本
,在它上运行聚类,并将这个模型推广到整个
数据
集是否可行呢?为什么/为什么这不是一个可行的方法?谢谢!
浏览 0
提问于2020-11-08
得票数 6
回答已采纳
4
回答
如何才能学习随机森林子
样本
大小可以等于原始训练
数据
的大小?
python
、
scikit-learn
、
random-forest
、
subsampling
在SciKit学习随机森林分类器的文献中,指出: 我是不是漏掉了什么?
浏览 4
提问于2016-03-06
得票数 6
回答已采纳
3
回答
模型
和
算法的确切区别是什么?
algorithm
、
machine-learning
、
model
、
terminology
模型
和
算法的确切区别是什么? 让我们以逻辑回归为例。逻辑回归是一种模型还是一种算法,为什么?
浏览 5
提问于2017-06-29
得票数 8
5
回答
在二进制分类中,是否应该平衡测试
数据
集?
machine-learning
、
classification
、
class-imbalance
我有一个
数据
集,有4519个
样本
标记为"1",18921个
样本
标记为"0“,在二进制分类练习中。我很清楚,在分类算法的训练阶段(在这种情况下,是随机森林),应该平衡0/1
样本
的数量,以防止算法偏向大多数类。 但是,测试
数据
集是否也应该是平衡的?换句话说,如果用"0“类的1000个随机
样本
和
"1”类的1000个随机
样本
来训练我的模型,我应该用剩下的3519个"1“类
样本</em
浏览 0
提问于2018-11-29
得票数 8
回答已采纳
2
回答
基于
样本
统计
从
二项分布中随机
抽取
r
、
random
、
montecarlo
我有一个观察到的
数据
集,我想使用其中的一些信息将其提供给蒙特卡洛模拟。我在这项研究中使用了R。binom.test(8, 8) ## gives point estimate of 1 and 95% CI 0.63
浏览 2
提问于2012-12-18
得票数 2
回答已采纳
2
回答
训练损失和验证损失之间有很大的差距,这是不是很糟糕?
overfitting
一个更适合的模型是否有可能在看不见的
数据
上表现更好,或者这是否意味着存在某种类型的
数据
泄漏?
浏览 0
提问于2019-01-25
得票数 1
2
回答
贝叶斯t检验假设
statistics
、
bayesian
、
rjags
下午好,通常使用levene的方差齐性检验,以及正态假设的shapiro wilk检验
和
qqplots检验。我如何在R中使用coda
和
rjags检查它们?
浏览 2
提问于2017-04-12
得票数 1
1
回答
是否有一种方法来
绘制
跨栏模型结果pscl包,还是在r中
绘制
栏模型的计数-零截断负值部分?
r
、
ggplot2
、
visualization
、
glm
、
pscl
有没有办法在R中
绘制
障碍模型的结果?我能够
绘制
跨栏模型的零部分(带有logit链接的二项环),但我不知道如何
绘制
模型的计数部分(用日志链接截断负二项式)。我正在使用pscl包作为跨栏模型。示例
数据
(df = data):0L, 0L, 20L, 251L, 20L我知道如何
绘制
跨栏模型的零部分的唯一方法是执行以下操作:structure(list
浏览 7
提问于2022-11-15
得票数 3
回答已采纳
12
回答
基于三维加速的图形
绘制
.net
、
3d
、
gpu
、
linegraph
这使得我们在一个屏幕上渲染了大约2500万个
样本
。使用常识
和
简单的技巧,我们可以使用CPU在2D画布上
绘制
这个代码来获得这个代码的性能。表演性,即渲染时间降到1分钟以下。现在的问题是: GPU的OpenGL、DirectX
和
XNA都是为3D场景而设计的。因此,使用它们来
绘制
二维线图是可能的,但并不理想。因此,我们必须与具有多边形、顶点
和
更多优点的XYZ坐标系一起工作。
从
发展的角度来看,这是远远不够理想的。代码变得不可读,维护是一场噩梦,更多的问题开始激化。 在3D中,你
浏览 12
提问于2008-10-20
得票数 8
回答已采纳
3
回答
C++:不需要替换的离散分布抽样
c++
、
distribution
、
sampling
std::cout << i << ": " << std::string(p[i],'*') << std::endl; } 你是否曾在没有更换的情况下编码过这样的
样本
浏览 0
提问于2018-12-05
得票数 2
2
回答
如何处理大型
数据
集上的单词嵌入训练中的内存问题?
dataset
、
deep-learning
、
word-embeddings
、
torch
研究计算资源是定时的,因此可以短时间访问GPU节点,因此选择了增量模型培训: 增量模型培训:在整个
数据
集上进行培训的一种方法是使用增量模型培训,即在
数据
块上对模型进行训练
并
保存它。我们扫描所有的文档,
并
创建单词的声音,这些单词的计数超过最低设定的频率。实际上,这个词汇表是一个散列图,它有与每个单词相关的索引,在训练
样本
中,为了模型的简单性,我们用它们的索引替换单词。另一个问题是内存限制了词汇表
数据
结构的大小。我正在实现我的模式在火炬,这是基于LUA的。因此,LUA限制了表的大小,我不能在
浏览 0
提问于2016-06-07
得票数 6
回答已采纳
3
回答
为什么交叉验证RF分类的表现比没有交叉验证差?
python
、
scikit-learn
、
random-forest
、
cross-validation
共有275,956个
样本
。33.39 49.08 29.06 0.0 0.0 1
从
文档中,
数据
被分成训练
和
测试。(data.queen3, predicted) 根据我的理解,交叉验证不应该将预测的准确性降低这么多,而是改进模型的预测,因为模型看到了所有
数据
的
浏览 0
提问于2018-03-28
得票数 4
回答已采纳
1
回答
根据一些初始观测生成一组不同的场景
python
、
time-series
、
data-science-model
、
sampling
、
distribution
在我的例子中,我想创建更多基于当前观测的输入
数据
,
并
创建不同的时间序列/模拟。例如,让我们以基本场景为例。我的第一个想法是通过时间计算协方差矩阵
和
不同
数据
点的平均值,然后
从
多元正态分布中
抽取
样本
。如果我只是
绘制
随机点并在不同的时间间隔分配它们,这些属性中的一些可能会变得抖动。举个例子,如果一个属性和我们说的‘GDP’有点相似,那么短期波动是没有意义的。他只是使用3个场景的属性值
和
cdf定义了每个时间点的正态分布。例如,如果每
浏览 0
提问于2018-10-12
得票数 1
6
回答
了解最佳做法的
数据
集
statistics
、
dataset
我是一名
数据
挖掘专业的CS硕士。我的主管曾经告诉我,在我运行任何分类器或对
数据
集做任何事情之前,我必须完全理解
数据
,
并
确保
数据
是干净的
和
正确的。我的问题:实践以确保
数据
集是干净的? 确保
数据
集没有错误值之类的实践?
浏览 0
提问于2014-06-24
得票数 13
1
回答
如何将条形图
和
圆点图结合起来,实现ggplot2的同时
数据
可视化?
r
、
ggplot2
、
dplyr
、
data-visualization
个不同的位置
抽取
样本
,每个
数据
集中
都用Loc列表示。data1包含被分配给的集群,分别表示为集群A、B、C
和
D。在data1中,A、B、C
和
D列中的值表示
从
每个Loc分配给每个集群的观察值的百分比。total列表示
从
每个Loc中获取的观察总数。data2包含用于创建集群的变量的平均值,所有这些变量都在类似的规模上。使用tidyverse框架,我们可以连接每个Loc的观察,
并
创建一个显示分配给每个集群的每个Loc的观察的百分比,如下所示
浏览 2
提问于2020-07-18
得票数 1
回答已采纳
1
回答
Keras -自定义无限
数据
生成器
python
、
numpy
、
keras
、
generator
我正在尝试为Keras构建一个自定义
数据
生成器。我这样做是因为内置图像
数据
生成器只支持分类任务,而我试图解决一个以图像作为输入的回归任务。首先,我将包含img路径
和
目标变量Y的文本文件上载到dataframes中,然后对它们进行洗牌:train= train.sample(frac=1).reset_index(drop=True) AnnoParser只解析文本文件
并
返回Pandas。正如您所看到的,我每次都会重新调整输入数组,
浏览 0
提问于2018-02-01
得票数 1
回答已采纳
7
回答
谁能告诉我为什么我们在机器学习中总是使用高斯分布?
math
、
machine-learning
、
bayesian
、
gaussian
例如,我们总是假设
数据
或信号误差是高斯分布?为什么?
浏览 3
提问于2012-09-27
得票数 9
回答已采纳
点击加载更多
相关
资讯
5种最重要的统计数据分析方法,你知道吗?
AP统计学公式汇总
教程:教你一个简单快速能够掌握监督学习算法的方法
大数据学习之SQL分析函数
R语言广义线性混合模型(GLMM)bootstrap预测置信区间可视化
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券