我有两个数据帧,如下: DF1:
Name Value
buying fish hook 240
arrange lunch 75
repair equipment 800
purchase air condition 1400
buying fish 66
DF 2:
Name
fish
lunch
equipemt
air condition
hair condition
fish hook
我想用模糊逻辑匹配来自两个数据帧的名称列中的名称,并将第二个数据帧中的名称列
我希望基于R中的2列合并2个数据帧,这两个数据帧称为popr和data列,它们共享相同的2个变量: USUBJID和TRTAG2N,这两个变量是我想要组合这两个数据帧的变量。
当我只尝试根据一列进行合并时,合并函数就能工作:
merged <- merge(popr,droppedcol,by="USUBJID")
当我试图通过使用2列合并并查看数据框架“工期”时,表是空的,没有值,只有列标题。它说“表中没有可用的数据”。
我的任务是在R中复制SAS代码:
data duration;
set pop combined1 ;
by usubjid trtag2n;
我有一个场景,我希望在两个数据帧之间找到不匹配的行。这两个数据帧都有大约30列和一个唯一标识每条记录/行的id列。因此,我想检查df1中的行是否与df2中的行不同。df1是更新后的数据帧,df2是以前的版本。 我尝试了一种方法pd.concat([df1, df2]).drop_duplicates(keep=False),但它只是将两个数据帧结合在一起。有办法做到这一点吗。如果能帮上忙我会很感激的。 这两个dfs的示例数据如下所示。 id user_id type status 总共有39列,其中可能包含NULL值。 谢谢。 P.S. df2将始终是df1的子集。
我无法比较两个不同数据帧的列值。
第一个数据集有500行,第二个数据集有128行。我提到的是数据集的几行。
第一个数据集:
Country_name Weather President
USA 16 Trump
China 19 Xi
第2个数据集
Country_name Weather Currency
North Korea 26 NKT
China 19 Yaun
我想要比较country_name列,因为我在dataset 1
我有两个熊猫数据帧:
数据帧1:
ITEM ID TEXT
1 some random words
2 another word
3 blah
4 random words
数据帧2:
INDEX INFO
1 random
3 blah
我想要将( dataframe 2的) INFO列的值与dataframe 1的TEXT列进行匹配。如果匹配,我希望看到一个新的列带有"1“。
如下所示:
ITEM ID TEXT MATCH
1 some random words
我正在尝试在充满组织名称的PANDAS列中寻找潜在的匹配项。我目前正在使用iterrows(),但它在大约有70,000行的数据帧上非常慢。在查看了StackOverflow之后,我尝试实现了一个lambda row (apply)方法,但这似乎几乎不能加快速度。
数据帧的前四行如下所示:
index org_name
0 cliftonlarsonallen llp minneapolis MN
1 loeb and troper llp newyork NY
2 dauby o'connor and zaleski llc carmel IN
3 wegner c
具体来说,我想迭代两个数据文件,一个是大的,另一个是小的。
最后,我想比较一下某一列中的值。
我试着创建一个嵌套的for循环;外部循环遍历大型dataframe,内部循环迭代小的dataframe,但是我遇到了困难。
我正在寻找一种方法来识别我的大型数据文件中的"name“和"value”,它们与我的小dataframe匹配。
背景信息:我正在使用熊猫库。
大型数据帧:
小数据集:
Name Value
SF 12.84
TH -49.45
我有一个数据帧,如下所示: test
# Name1 Name2 Match
#1 A C 1
#2 E NA 0
#3 D G 1
#4 R NA 0 如果两个name列都有非NA元素,则match列显示1,如果没有非NA元素,则显示0。我想创建一种读取数据帧的方法,以便如果测试$match == 0,则Name 1中的行元素将被复制到Name 2,如下所示: test
# Name1 Name2 Match
#1 A C 1
#2 E E
我有两个数据帧(df1和df2),这两个数据帧有100多列。JA列是id列。我想一次比较两列,并从两个数据框中获得未合并的结果,就像df3一样。我为BC列创建了df3。我想对整个数据帧执行此操作。我的意思是,我必须逐个检查每一列,而不是一次检查所有列。当我检查一个列时,我想创建类似于df3的东西。有没有办法做到这一点。
df1
JA AB BC fas waa ad
1 1 ace 52 5 2 ce
2 22 a e 3 5 78 ce
3 36
我有两个数据帧,每个数据帧有两列,我想知道当两个值都在另一个数据帧中时,如何用1创建一个向量,或者在两个值都不在的情况下,用0创建一个向量。 x <- data.frame(A = c(1,2,3,4,5,6,7,1),
B = c(10,1,30,1,50,60,1,80),
stringsAsFactors = FALSE)
y <- data.frame(C = c(1,2,3,4,5,6,7,8,9,10),
D = c(1,20,30,40,50,60,70,80,90,10
虽然在matrix中允许重复的行(和列)名称,但在data.frame中不允许。尝试rbind()一些具有共同行名的数据帧会突出这个问题。考虑下面的两个数据帧:
foo = data.frame(a=1:3, b=5:7)
rownames(foo)=c("w","x","y")
bar = data.frame(a=c(2,4), b=c(6,8))
rownames(bar)=c("x","z")
# foo bar
# a b a b
# w 1 5
我正在尝试合并两个都有'product_desc‘列的数据帧。我使用的是Pandas 0.13和Python 2.7。
small_df = pd.merge(small_df, linregress_df, on = 'product_desc', how = 'left')
但是,我得到以下错误:
pandas.core.index.InvalidIndexError: Reindexing only valid with uniquely valued Index objects
我将两个数据帧导出到平面文件中,其中的索引或其他列都没有重复值。我需
我的守则:
a = 10001
b = "01.01.2001"
if a == np.any(df["Token_ID"]) and b == np.any(df["Date_of_birth"]):
print("yes")
else:
print("no")
以上代码仅适用于数据帧中的第一行。如果我提供a= 10012和b= "01.01.2012“,那么它将打印no。有人能解释一下吗?
谢谢。
不匹配数据
a = 10011
b = "01.01.2001"
i