我对Stata不熟悉。我需要在Stata上实现多个补偿,但在使用它时有一个问题。我按照下面的代码做所有的事情,比如指令:
use http://www.stata-press.com/data/r11/mheart1s20
mi describe
mi impute regress bmi attack smokes age female hsgrad, add(20)
然后,我得到了所有的东西,就像指令一样。但是,我希望找到输出文件(完成的数据)。
我正在处理以下数据集及其丢失的数据:
# A tibble: 27 x 6
id sex d8 d10 d12 d14
<dbl> <chr> <dbl> <dbl> <dbl> <dbl>
1 1 F 21 20 21.5 23
2 2 F 21 21.5 24 25.5
3 3 NA NA 24 NA 26
4 4 F 23.5 24.5 25
我设计了一个客户机/服务器架构。在这个系统中,客户端可以调用一些服务,-which是通过API调用在服务器上实现的。由于客户端必须发送一些特定的选项,我对此架构设计的某些部分表示怀疑。这些备选办法列示如下:
{
"query" : "sample",
"search_engine" : "google" //can be anything else such as bing or etc.
}
如您所知,我可以在这个体系结构中使用2种模式,包括:
客户端可以将search_engine选项嵌入到json中,并将其提交给服务
我想知道是否有允许通过聚类、回归和随机回归进行估算的库。到目前为止,我已经做了平均,中位数和KNN的估算。我试图评估小型数据集的最佳估算方法(在本例中是Iris)。我不得不愉快地创建NaN值,因为Iris集没有。
我的KNN估算代码:
import pandas as pd
import numpy as np
import random
from fancyimpute import KNN
data = pd.read_csv("D:/Iris_classification/train.csv")
mat = data.iloc[:,:4].as_matrix
我正在分析一个超过45万行的数据集,由于无响应和其他随机因素,我正在查看的一列(pa1min_)中约有100k行的数据具有NA值。本专栏介绍以分钟为单位的锻炼时间。
我认为用均值或中位数填充NA值是没有意义的,因为它几乎占到了数据的四分之一,而且可能会产生偏差。我想用线性回归来归因于丢失的观测值。但是,我收到一条错误消息:
Error: vector memory exhausted (limit reached?)
In addition: There were 50 or more warnings (use warnings() to see the first 50)
这是我的代码:
我正在处理一个属性中有几个缺失值的数据集。
在完成了典型的数据预处理过程之后,我的下一步是尝试拟合一个回归模型来估算缺失值。但是,当我尝试使用fancyimpute中的IterativeImputer时。我遇到了这个错误:
C:\Users\User.DC241-12\Anaconda3\lib\site-packages\sklearn\linear_model\ridge.py:942: RuntimeWarning: overflow encountered in square
v = s ** 2
****hierarchy of filenames in which error