从数据集中抽取100个样本，共20个样本，并绘制回归线和总体回归线

文章/答案/技术大牛

发布

2回答

r、regression、sample

我有一个数据集，其中有两个变量:学习小时数和成绩。我想从这个数据集中取大约100个样本，每个样本20个，并显示100条回归线和原始回归线。有什么建议吗？

浏览 38提问于2020-10-27得票数 1

回答已采纳

1回答

如何在statsmodel ols中获得“样本内”预测值(y hat)？

python、regression、statsmodels

print(dir(reg))中有一个reg.predict和一个reg.get_predict，但它们都没有返回数据集中每个示例(案例或主题)的预测值。它似乎正在等待一个“超出样本”的数组来输出这些预测值。

浏览 23提问于2020-05-24得票数 1

回答已采纳

2回答

如何根据多个参数的分布从大队列中抽样

我有一个虚构的数据框架，包括连续变量和分类变量 library(dplyr)library(tidyr) # each sample我现在的问题是，我如何从df中采样，以便我的sample_df遵循所有参数(性别、年龄、阶段、血液)的分布和概率。我考虑将回归模型拟合到df，并根据残差选择样本，因此每个样本到回归线的距离。实际的潜在问题是大量的患者数据，我想从

浏览 29提问于2020-04-04得票数 0

2回答

采样是降低复杂性的有效方法吗？

clustering、sampling

我面临的一个问题是，我需要大量的数据来进行聚类。正如我们所知道的，聚类算法可能具有很高的O复杂度，我正在寻找减少算法运行时间的方法。但是，我还没有听说过一些事情，我想知道为什么--简单地从我的数据集中获取一个有代表性的样本，在它上运行聚类，并将这个模型推广到整个数据集是否可行呢？为什么/为什么这不是一个可行的方法？谢谢!

浏览 0提问于2020-11-08得票数 6

回答已采纳

4回答

如何才能学习随机森林子样本大小可以等于原始训练数据的大小？

python、scikit-learn、random-forest、subsampling

在SciKit学习随机森林分类器的文献中，指出：我是不是漏掉了什么？

浏览 4提问于2016-03-06得票数 6

回答已采纳

3回答

模型和算法的确切区别是什么？

algorithm、machine-learning、model、terminology

模型和算法的确切区别是什么？让我们以逻辑回归为例。逻辑回归是一种模型还是一种算法，为什么？

浏览 5提问于2017-06-29得票数 8

5回答

在二进制分类中，是否应该平衡测试数据集？

machine-learning、classification、class-imbalance

我有一个数据集，有4519个样本标记为"1"，18921个样本标记为"0“，在二进制分类练习中。我很清楚，在分类算法的训练阶段(在这种情况下，是随机森林)，应该平衡0/1样本的数量，以防止算法偏向大多数类。但是，测试数据集是否也应该是平衡的？换句话说，如果用"0“类的1000个随机样本和"1”类的1000个随机样本来训练我的模型，我应该用剩下的3519个"1“类样本</em

浏览 0提问于2018-11-29得票数 8

回答已采纳

2回答

基于样本统计从二项分布中随机抽取

r、random、montecarlo

我有一个观察到的数据集，我想使用其中的一些信息将其提供给蒙特卡洛模拟。我在这项研究中使用了R。binom.test(8, 8) ## gives point estimate of 1 and 95% CI 0.63

浏览 2提问于2012-12-18得票数 2

回答已采纳

2回答

训练损失和验证损失之间有很大的差距，这是不是很糟糕？

overfitting

一个更适合的模型是否有可能在看不见的数据上表现更好，或者这是否意味着存在某种类型的数据泄漏？

浏览 0提问于2019-01-25得票数 1

2回答

贝叶斯t检验假设

statistics、bayesian、rjags

下午好,通常使用levene的方差齐性检验，以及正态假设的shapiro wilk检验和qqplots检验。我如何在R中使用coda和rjags检查它们？

浏览 2提问于2017-04-12得票数 1

1回答

是否有一种方法来绘制跨栏模型结果pscl包，还是在r中绘制栏模型的计数-零截断负值部分？

r、ggplot2、visualization、glm、pscl

有没有办法在R中绘制障碍模型的结果？我能够绘制跨栏模型的零部分(带有logit链接的二项环)，但我不知道如何绘制模型的计数部分(用日志链接截断负二项式)。我正在使用pscl包作为跨栏模型。示例数据(df = data)：0L, 0L, 20L, 251L, 20L我知道如何绘制跨栏模型的零部分的唯一方法是执行以下操作：structure(list

浏览 7提问于2022-11-15得票数 3

回答已采纳

12回答

这使得我们在一个屏幕上渲染了大约2500万个样本。使用常识和简单的技巧，我们可以使用CPU在2D画布上绘制这个代码来获得这个代码的性能。表演性，即渲染时间降到1分钟以下。现在的问题是: GPU的OpenGL、DirectX和XNA都是为3D场景而设计的。因此，使用它们来绘制二维线图是可能的，但并不理想。因此，我们必须与具有多边形、顶点和更多优点的XYZ坐标系一起工作。从发展的角度来看，这是远远不够理想的。代码变得不可读，维护是一场噩梦，更多的问题开始激化。在3D中，你

浏览 12提问于2008-10-20得票数 8

回答已采纳

3回答

C++：不需要替换的离散分布抽样

c++、distribution、sampling

std::cout << i << ": " << std::string(p[i],'*') << std::endl; } 你是否曾在没有更换的情况下编码过这样的样本

浏览 0提问于2018-12-05得票数 2

2回答

如何处理大型数据集上的单词嵌入训练中的内存问题？

dataset、deep-learning、word-embeddings、torch

研究计算资源是定时的，因此可以短时间访问GPU节点，因此选择了增量模型培训：增量模型培训:在整个数据集上进行培训的一种方法是使用增量模型培训，即在数据块上对模型进行训练并保存它。我们扫描所有的文档，并创建单词的声音，这些单词的计数超过最低设定的频率。实际上，这个词汇表是一个散列图，它有与每个单词相关的索引，在训练样本中，为了模型的简单性，我们用它们的索引替换单词。另一个问题是内存限制了词汇表数据结构的大小。我正在实现我的模式在火炬，这是基于LUA的。因此，LUA限制了表的大小，我不能在

浏览 0提问于2016-06-07得票数 6

回答已采纳

3回答

为什么交叉验证RF分类的表现比没有交叉验证差？

python、scikit-learn、random-forest、cross-validation

共有275,956个样本。33.39 49.08 29.06 0.0 0.0 1 从文档中，数据被分成训练和测试。(data.queen3, predicted) 根据我的理解，交叉验证不应该将预测的准确性降低这么多，而是改进模型的预测，因为模型看到了所有数据的

浏览 0提问于2018-03-28得票数 4

回答已采纳

1回答

根据一些初始观测生成一组不同的场景

python、time-series、data-science-model、sampling、distribution

在我的例子中，我想创建更多基于当前观测的输入数据，并创建不同的时间序列/模拟。例如，让我们以基本场景为例。我的第一个想法是通过时间计算协方差矩阵和不同数据点的平均值，然后从多元正态分布中抽取样本。如果我只是绘制随机点并在不同的时间间隔分配它们，这些属性中的一些可能会变得抖动。举个例子，如果一个属性和我们说的‘GDP’有点相似，那么短期波动是没有意义的。他只是使用3个场景的属性值和cdf定义了每个时间点的正态分布。例如，如果每

浏览 0提问于2018-10-12得票数 1

6回答

了解最佳做法的数据集

statistics、dataset

我是一名数据挖掘专业的CS硕士。我的主管曾经告诉我，在我运行任何分类器或对数据集做任何事情之前，我必须完全理解数据，并确保数据是干净的和正确的。我的问题：实践以确保数据集是干净的？确保数据集没有错误值之类的实践？

浏览 0提问于2014-06-24得票数 13

1回答

如何将条形图和圆点图结合起来，实现ggplot2的同时数据可视化？

r、ggplot2、dplyr、data-visualization

个不同的位置抽取样本，每个数据集中都用Loc列表示。data1包含被分配给的集群，分别表示为集群A、B、C和D。在data1中，A、B、C和D列中的值表示从每个Loc分配给每个集群的观察值的百分比。total列表示从每个Loc中获取的观察总数。data2包含用于创建集群的变量的平均值，所有这些变量都在类似的规模上。使用tidyverse框架，我们可以连接每个Loc的观察，并创建一个显示分配给每个集群的每个Loc的观察的百分比，如下所示

浏览 2提问于2020-07-18得票数 1

回答已采纳

1回答

Keras -自定义无限数据生成器

python、numpy、keras、generator

我正在尝试为Keras构建一个自定义数据生成器。我这样做是因为内置图像数据生成器只支持分类任务，而我试图解决一个以图像作为输入的回归任务。首先，我将包含img路径和目标变量Y的文本文件上载到dataframes中，然后对它们进行洗牌：train= train.sample(frac=1).reset_index(drop=True) AnnoParser只解析文本文件并返回Pandas。正如您所看到的，我每次都会重新调整输入数组，

浏览 0提问于2018-02-01得票数 1

回答已采纳

7回答

谁能告诉我为什么我们在机器学习中总是使用高斯分布？

math、machine-learning、bayesian、gaussian

例如，我们总是假设数据或信号误差是高斯分布？为什么？

浏览 3提问于2012-09-27得票数 9

回答已采纳

点击加载更多