假设我有一个带有分组变量的简单数据框架,每个组有三个xs:
df<-data.frame(grp=rep(letters[1:3],each=3),
x=rnorm(9))
grp x
1 a 1.9561455
2 a -2.3916438
3 a 0.7267603
4 b -0.8794693
5 b -0.3089820
6 b -1.7228825
7 c -0.3964017
8 c -0.6237301
9 c -0.1522535
我希望每个组将初始行作为参考行,并获得所有行的x
我有许多重复测量的治疗方法,我想减去每个治疗的每个时间点的控制值。数据集的形状是这样的,有数年,种类和处理。
ID Year Species Treatment value
1 2010 x control 0.04
1 2011 x control 0.10
2 2010 x MaxDamage 0.02
2 2011 x MaxDamage 0.06
我想增加一列
difference =( value of the Treatment for each year - value of the contro
我有一个有组和时间标识的数据。现在,我想创建一个名为X2的新计数变量,条件是每个组中以前的X1值。
假设我有下面的dataframe、变量group、time、X1,并且希望创建X2。X2的值应该是一个计数变量,该变量指示句点的数量(即行),因为X1最后一次等于给定组中的1。如果X1的所有先前值都为0,则应该缺少X2。
group time X1 X2
1 1 1 0 NA
2 1 2 0 NA
3
我正在尝试从许多数据框中选择和重命名列,并想要创建一个函数。我最终将合并子集数据,因此我希望首先使用前缀重命名列,以区分从每个数据框派生的数据。我怎么才能把它变成一个函数呢?
下面是一个示例,其中x是一个数据帧。
title <- (deparse(substitute(x))) #get the name of the dataframe
myname <- (paste(title, "avg_logFC", sep = "_")) #make a new variable that pastes the name of the
datafr
我发现了两种在python中实现特性选择的MRMR方法。包含该方法的论文来源是:
这是我的数据集代码。
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
X, y = make_classification(n_samples=10000
我正在努力计算R中数据帧中两组之间的t-test。下面的示例代码产生了一个有两列的数据帧:变量和值。有两个变量:"M“和"F”。
data <- data.frame(variable = c("M", "F", "F"), value = c(10,5,6))
我需要证明M和F的值在统计上是不同的。换句话说,10在统计上与5和6的平均值不同。我需要在此数据框中添加另一列来显示p值。当我运行下面的代码时,它给出了以下错误:
result <- data %>% mutate(newcolumn = t.test(
最近,我一直在玩PowerShell,在使用管道和foreach循环时,我注意到了一些我无法理解的奇怪行为。
这个简单的代码工作:
$x = foreach ($i in gci){$i.length}
$x | measure -max
合乎道理。
但是这个代码不会:
foreach ($i in gci){$i.length} | measure -max
我得到了以下错误:
An empty pipe element is not allowed.
At line:1 char:33
+ foreach ($i in gci){$i.length} | <<<<
当我使用管道时,我试图弄清楚如何对数据进行缩放(大概是使用inverse_transform)来进行预测。下面的数据只是一个例子。我的实际数据要大得多且复杂得多,但我希望使用RobustScaler (因为我的数据有异常值)和Lasso (因为我的数据有几十个无用的特性)。一般情况下,我对管道都很陌生。
基本上,如果我试着用这个模型来预测任何事情,我想用不成比例的术语来预测。这有可能有管道吗?我怎样才能用inverse_transform做到这一点呢?
import pandas as pd
from sklearn.linear_model import Lasso
from sklearn
我和dplyr的semi_join有问题。理想情况下,我希望在dfA上与dfB进行半连接。dfA有重复的值,dfB也有。我想从dfA中提取所有与dfB匹配的值,甚至是dfA中的重复值。
dfA dfB >> dfC
x y z x g x y z
1 r 5 1 lkm 1 r 5
1 b 4 1 pok 1
R包密度()的小片段给出了将colored_bars函数与包dynamicTreeCut中的cutreeDynamic一起使用的示例,如下所示:
# let's get the clusters
library(dynamicTreeCut)
data(iris)
x <- iris[,-5] %>% as.matrix
hc <- x %>% dist %>% hclust
dend <- hc %>% as.dendrogram
# Find special clusters:
clusters <- cutreeDynamic