假设我有2个Pandas数据帧,df维度为297232 x 122维度,df_raw维度为840380x122维度。df已经是df_raw的一个子集。两个数据帧的索引都是DateTime。我想从df中取值的70%,从df_raw中取值的30% (如果需要,可以随机采样),同时确保采样的数据帧子集在索引方面没有重叠。更准确地说,df_subset将从df中<
我试图根据在每个数据帧中找到的一个列(称为“名称”)中的匹配值来连接两个数据帧(df1和df2)。我使用R的inner_join函数和Python的merge函数进行了尝试,并且能够成功地在较小的数据子集上工作。我认为我的问题是数据帧的大小。我曾尝试过(在R):
df3 <- inner_join(x = df1, y = df2, by = 'N