如何找到两个数据集之间的相似性，并生成由这些重合的行组成的新数据帧？

文章/答案/技术大牛

发布

1回答

r、bigdata

我在一个文件中有超过1000个站的无线电探空仪观测结果，以及我真正感兴趣的站(81个)的列表。我需要创建一个新的数据框，其中将包括第一个文件的行。因此，我有两个从.txt文件导入到R的数据集。第一个是数据框6694668x6，第二个是81x1，其中第二个数据集的行与第一个数据</em

浏览 9提问于2019-10-17得票数 0

回答已采纳

4回答

优化星火作业，必须计算每个条目的相似度，并输出每个条目的顶N个相似项

scala、apache-spark、cross-join

例如，对于演员和类型，向量显示给定的演员在电影中是存在(1)还是缺席(0)。我的计算方法是在电影数据集上使用交叉连接。然后，通过只使用movie1_id < movie2_id的行来减少问题。不过，此

浏览 0提问于2018-04-29得票数 9

回答已采纳

1回答

在R中查找数据框中列的平均值

r、dataframe、mean

我有一个矢量，它包含50个重新采样数据的数据帧。因此，每个数据框中的所有列名都是一致的，但数值不同。每个数据帧由12行组成。如何找到50个数据帧之间特定列中每行的平均值，并将12个平均值放入一个新的单列数据帧</e

浏览 2提问于2017-10-25得票数 0

2回答

匹配KMeans指定的不同标签

python、labeling

我有以下问题：在dataset A中，我发现了一个集群，它

浏览 3提问于2021-11-26得票数 0

1回答

计算两只熊猫DataFrames字符串之间的距离

python、pandas、fuzzywuzzy

我有两个数据帧：Date Name Num 2013-11-24 Orange 8.6 2013-11-24 Apple，为此，我需要在两个数据帧之间找到Name的相似性，现在我正在迭代每个数据帧，并计算与其他数据帧的所有其他<

浏览 4提问于2017-09-25得票数 1

回答已采纳

1回答

在R中，我如何加入和子集SpatialPolygonsDataFrame？

r、spatial

我试图找出在R中如何执行(在地理信息系统中很容易)操作的方法。让我们以spdep包中的多边形数据集为例c <- readShapePoly(system.file("etc/shapes/columbus.shp", package="spdep")[1])我已经找到了可以使用subset选择逻辑语句的多边形。<- data.

浏览 2提问于2013-04-15得票数 4

回答已采纳

1回答

在生产中使用R-的KNN

r、knn

我有一些由99行数据组成的虚拟数据，一列是自由文本数据，另一列是目录。它分为与客户服务或与客户服务无关的两类。我将这99行数据传递到我的R脚本中，创建了一个语料库，清理并解析了我的数据，并将其转换为DocumentTermMatrix。然后，我将我的DTM转换为数据帧，以使其更易于查看。我将类

浏览 6提问于2017-03-07得票数 0

回答已采纳

4回答

测试非线性支持向量机的数据集

dataset、artificial-intelligence、machine-learning、svm

我正在实现一个非线性支持向量机，我想在一个简单的不可线性分离的数据上测试我的实现。谷歌并没有帮我找到我想要的东西。你能告诉我在哪里可以找到这样的数据吗？或者至少，我如何手动生成这样的数据？谢谢,

浏览 1提问于2011-05-07得票数 8

回答已采纳

2回答

两个数据集之间的相似性百分比

如何找到两个数据集之间的相似性(而不是相关性)？我很难找到匹配数据集之间的相似性。我有一个主要的数据集，我想测试相同长度和相对时间序列的多个数据集，以找出在序列、日复一日的相似和差异、最接近的水平值等方

浏览 7提问于2017-06-09得票数 0

1回答

布尔数据的相似度计算

recommender-system、similarity

我试图实现简单的推荐系统，并试图理解不同的方法来实现我的目标。我的数据集由用户和他们购买的物品组成。我有关于什么项目的用户购买的信息和这些项目的描述形式的标题。起初，我想我可以使用基于用户的协作过滤方法，但我仍然坚持这样做。我不太清楚如何计算布尔数据的相似性。E推荐项目，那

浏览 0提问于2017-12-04得票数 2

2回答

For循环不打印两个数据帧之间的现有公共值

python、pandas、loops、for-loop

所以我有两个数据集，drinks和drinks2，关于星巴克饮料的营养信息，每个数据集都有一组不同的饮料作为观察对象。Protein (g)','Vitamin A (% DV)', 'Vitamin C (% DV)', 'Calcium (% DV)', 'Iron (% DV)', 'Caffeine (mg)'] 在将两个数据<

浏览 34提问于2019-09-20得票数 0

1回答

如何计算DIR@FAR1 1%用于人脸识别？

image-processing、machine-learning、computer-vision

最近，在一些论文中，人们正在通过一种新的协议来评估人脸识别方法，即基于LFW数据集的封闭集和开放集人脸识别。对于开放集，等级-1的准确性报告为检测和识别率(DIR)，在固定的虚警/接受率(FAR)。我有一个图库和一个探测集，并且使用KNN进行分类，但是我不知道如何计算DIR@FAR1 1%。更新：具体来说，对我来说模棱两可的是把远处固定在一个固定<em

浏览 4提问于2016-05-14得票数 0

回答已采纳

1回答

columnSimilarities()用于计算产品间的余弦相似性

pyspark、cosine-similarity

我有一个大的数据集，需要计算产品之间的余弦相似性在项目-项目协作过滤的产品推荐。由于数据包含超过50000项和25000行，我选择使用Spark，并找到了columnSimilarities()函数，它可以在DistributedMatrix上使用，特别是在RowMatrix或IndexedRowMatrix但是，有两个问题我很想知道。 RowMatrix<em

浏览 0提问于2018-10-29得票数 0

1回答

如何比较使用两个不同的数据集获得的两个相似性？

algorithm、similarity

我试图通过使用两个不同的数据集通过余弦相似度来计算用户与用户的相似度(用户是相同的，只是为了获得相似度而考虑的特征在数据集之间是不同的)。现在，有没有一种方法可以根据相似度值来判断这两个数据集有多相似？

浏览 0提问于2017-05-22得票数 0

2回答

Lsh算法和频带

algorithm、nearest-neighbor

我读了很多关于lsh算法的资料，但我有一个关于它的问题，完全是在频带上。S2 = {5, 4, 4, 8} //band signatures for set S2当我在一个确定的波段b中得到一个集合(例如S1)的所有minwise签名时，我必须做什么？我必须对这些签名求和(例如1+2+4+5)或一个或运算符(例如1或2或4或5)或其他什么？

浏览 1提问于2015-04-02得票数 0

3回答

字嵌入模型

machine-learning、deep-learning、word2vec、word-embedding、fasttext

我一直在搜索并尝试实现一个词嵌入模型来预测单词之间的相似性。我有一个由3550个公司名称组成的数据集，其想法是用户可以提供一个新单词(这个词不在词汇表中)，并计算新名称与现有名称之间的相似性。公司名称的平均长度由三个字组成，频率如下：预处理的结果是将标记发送到wo

浏览 5提问于2019-10-04得票数 1

回答已采纳

1回答

R data -基于数据集中的单个相似列合并两行

r、plyr

我认为这将是相对初级的，但我无论如何也想不出来。假设有一个数据集，其中有108行，由54个克隆的两个读数组成。很大程度上，我需要根据克隆(第2列)压缩数据集，从6:653取平均值，同时保留第1、2、3、654列的信息(这在两次读数之间对于这些列是相同的)。我有一个非常小的数据集</e

浏览 1提问于2013-09-23得票数 0

1回答

如何使用二元盒图从数据集中删除异常值

r、dataset、boxplot、outliers

我有一个数据集(见下文)，它由多个变量组成，其中两个是'manu‘和'popul’，它们都包含数值。然后从这幅图中我可以看到有一些异常值，我能够使用下面的代码识别出哪些值是异常值，我还将显示哪些值是异常值：

浏览 4提问于2021-03-16得票数 0

回答已采纳

1回答

在Python中合并两个dataframe后，如何查找未成功合并的dataframe行？

python、python-3.x、pandas、dataframe、merge

在使用Pandas对两个数据帧进行左合并后，我希望生成一个数据帧，其中包含未成功合并的第二个/右数据帧的行。数据帧df1和df2将根据两列合并，标题分别为城市和州。我这样做是为了生成合并后的数据帧df3： merged_df = pd.merge(df1, df2, how=&qu

浏览 15提问于2020-11-03得票数 0

2回答

如何为每一行添加来自泊松分布的模拟值，并将其添加到数据帧中

r、dataframe、poisson

我试图通过为每一行包含500个来自泊松分布的模拟值来扩展数据帧，该分布的参数Theta (count_mean)已经存储在数据帧中。在下面的示例中，我只提供了一个数据帧示例，因为我的实际数据由超过50,000行(即In )组成。", "4118", "5330"),

浏览 29提问于2020-06-22得票数 0

回答已采纳

点击加载更多