我是一名学习R的C程序员。我读过Teetor的“R Cookbook”的一部分,并在网上读了一些。我很难理解R中的data.frames。
我在一个文件中有一个表(即test.dat)
Name Bill Judy Abe
Age 32 45 67
SSN 5689 4212 6321
sex m f m
我读到的
data <- read.table("test.dat", header=TRUE)
我打印出来:
data[2,3]
然后返回:
[1] 4212
Levels: 4212 45 f
这些级别是什么?我怎样才能阻止它打印这个垃圾?
另外,为什么我不能使
我已经处理了一个R数据文件:
import rpy2.robjects as ro
from rpy2.robjects.packages import importr
from rpy2.robjects import pandas2ri
from rpy2.robjects.conversion import localconverter
pandas2ri.activate()
import pandas as pd
%%R
n = c(2, 3, 5)
s = c("aa", "bb", "cc")
b = c(TRUE, FALS
我使用的数据集记录了被调查者的种族。应答记录在多个变量之间,被调查者可以选择多个变量。示例:
Black White Asian Hispanic
1 NA NA NA
NA 1 NA NA
NA NA NA 1
NA NA 1 1
在最后一行中,答辩人会选择亚裔和拉美裔。
我想做的是:
( A)将这些列折叠成一个单一的种族变量,不同的代表不同种族的数字(即黑人为1,白人为2等等)。
( B)使任何报告多列的人都被指定为“多列”。
我有点R新手,所以任何帮助都会非常感谢!
嗨,我是新来的,我有一个关于proc转位的问题。
我有这个数据
Input
School Name State School Code 26/07/2009 02/08/2009 09/08/2009 16/08/2009
Northwest High IL 14556 06 06 06 06
Georgia High GA 147 05 05 05 06
Macy Hgh
我尝试在R中运行线性回归,但得到以下错误: Warning messages:
1: In model.response(mf, "numeric") :
using type = "numeric" with a factor response will be ignored
2: In Ops.factor(y, z$residuals) : ‘-’ not meaningful for factors 代码是: reg_ex1 <- lm(V45~TotalScore,data = Combineddatainprogresscsv) 值V45和
我正在尝试使用dplyr在tibble (dataframe)上做一些数据处理,以消除重复记录,其中如果一个id出现两次,则结果记录将包含相同的值(如果它们都相同),或者如果其中一个记录中存在差异,则返回的记录将包含相同的值。例如,如果我有df: id date amount tag
--- ---- ------ ---
1 2018-01-03 10 big
2 2019-01-16 20 small
3 2020-01-05 30
我有一个包含两个组的简单数据集,每个组在4个不同的时间点上都有一个值。随着时间的推移,我希望将这个数据集显示为分组框,但是ggplot2不会将时间点分开。
这是我的数据:
matrix
Replicate Line Day Treatment X A WT Marker Proportion
1 C 10 low NA HuCHuD_Pos 8.62
2 C 10 low NA HuCHuD_Pos NA
1
我想使用“.RData”文件中的数据执行一些python函数。我使用的是'pyreadr‘python包。
以下是R代码的示例
library(data.table)
# Example
data <- data.table(x_num=c(1,1.5,2),
x_int=c(1,2,3))
data$x_int <- as.integer(data$x_int) # Making sure the data is in integer type
data_missing <- data.table(x_num=c(1.5
我被这个错误困扰了很长时间。我正在尝试使用R中的包中的函数,在对数据进行模型拟合之后,当我试图获得对训练数据本身的预测时,我遇到了以下错误(在预测测试数据时也遇到了相同的错误)
> Error in mindist[l] <- ndist[l]: NAs are not allowed in subscripted assignments
错误可追溯到函数的方法。
经过广泛的调试,我无法理解错误的根本原因。以下是关于我的数据的一些统计数据:
我在python中使用rpy2接口调用函数,因为我在python中工作,并且希望使用这个特定的R函数
数据集不是很大,大约200行,5
如果有人能帮忙,我会得到无效的类型比较错误吗?基本上,我在想用数据帧中的零替换所有"-“的行上有一个错误,以便使它对数值操作统一。以下是我的代码和错误:
代码:
import quandl, math
import numpy as np
import pandas as pd
from sklearn import preprocessing, cross_validation, svm
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_sp
下面的代码运行良好
var requestMap map[string]interface{}
for _, value := range requestMap {
switch v := value.(type) {
case []interface{}:
if len(v) == 0 {
// if is empty then no need to throw NA
return http.StatusOK, nil
}
case string:
if len(v) ==
我正在检查在3个不同的组合框中选择的3个值是否在某一行内。如果是,则将该行号赋值给一个变量,如果不是,则检查下一行。该范围内的所有单元格都填充了数据,消息框正在显示正确的值(仅用于检查目的),但是If语句并没有移动到下面代码中的selectedrow = r行。
Dim Project, licence, state As String
Dim selectedrow As Integer
Dim LastRow As Integer
Dim r As Integer
Project = cmb_Project.Value
licence = cmb_Licence.Value
state
我正在执行这段代码,在那里我得到了错误。
下面是在asp脚本中执行的查询。mydateTime包含日期和时间值,所以我使用强制转换只获取日期。
SELECT CAST(mydateTime AS DATE) AS getdate FROM vTable
这是代码
var value = (from r in innerdt.AsEnumerable()
where r.Field<string>("ggg") == dt.Rows[i][5].ToString()
select r[0]);
这里,innerdt是data
我有一个98790颗的数据框。143个变量中。它同时包含数字和NA。我想对每一行进行z得分.我尝试了以下几点:
>df
sample1 sample2 sample3 sample4 sample5 sampl6 sample7 sample8
1: 6.96123 3.021311 NA NA 7.464205 7.902878 -1.194076 7.771018
2: NA NA NA NA NA NA NA
在线性模型函数中,可以这样写:
result <- lm(r ~ N, data = ds)
该函数知道在dataframe ds中查找变量r和N
我编写了一个名为Check.Data的函数。自变量ri和ni是数据文件ds中的变量。
Check.Data(ri = ds$r, ni = ds$N, data = ds) #This runs
Check.Data(ri = r, ni = N, data = ds) #this does not
对函数的第二次调用没有运行,因为它找不到r: Check.Data(ri = r,ni = N,data = ds)中的错误:找不到对象