熊猫模糊检测重复项

文章/答案/技术大牛

发布

3回答

、、、、

如何在pandas中使用模糊匹配来检测重复行(高效)如何找到一个列与所有其他列的重复项，而不是转换row_i toString()的巨大for循环，然后将其与所有其他列进行比较？

浏览 10提问于2016-09-14得票数 4

回答已采纳

3回答

熊猫模糊合并/匹配名称列，带有重复项

、、、、

donors和fundraisers的重复名称：我试着遵循这条线索：，但一直把索引从范围内取出来(猜测它不喜欢募捐者中的重复名称

浏览 8提问于2013-11-13得票数 6

回答已采纳

1回答

检测导致行唯一性的熊猫列

、

我试图在熊猫DataFrame中删除多列的重复行。选择两行在我看来是重复的，我尝试了一个视觉比较，但无法识别它们之间的差异。因为有许多列，视觉检查是耗时和容易出错的.--我想要一种自动化的方法来查找行列表中存在差异的列()。我不知道如何在熊猫身上做这件事，因为我是新来的。我之前没有发现任何关于这个话题的问题。编辑:我感兴趣的是检测具有唯一值的列，而不是仅仅根据预先确定的列子集删除重复项。

浏览 6提问于2020-06-24得票数 1

回答已采纳

1回答

机器学习后的精明边缘检测检测四边形形状？

、、、、

在Canny边缘检测之后，我得到了很多从文档中检测到的边缘。但是我只需要文档的边缘，它不仅仅是一个矩形。机器学习边缘检测后的期望输出：

浏览 2提问于2018-08-15得票数 0

1回答

熊猫:删除特定栏中重复的项目

我有一个熊猫数据(这里用excel表示)：现在，我要删除特定行(B)中的所有双模糊项(1)。我该怎么做呢？

浏览 2提问于2017-11-29得票数 2

回答已采纳

1回答

寻找周期性重复条纹图案的ROI

、

我正在尝试使用opencv C++检测图像中固定重复模式的ROI。解决我的问题的最佳方法是什么？

浏览 0提问于2016-09-30得票数 1

1回答

在熊猫Python中的两个数据之间查找列中的副本

、、、、

我怎样才能编写一个函数来检测是否有熊猫的复制数据。因此，如果我比较index列在first和second之间，就没有重复项。但是，如果我比较index列在first和third之间，就会有1的重复。

浏览 4提问于2022-02-23得票数 -1

回答已采纳

1回答

用于模糊匹配重复数据删除的SQL

、、

TABLE A ID;SomeString 2;something2通过使用模糊匹配软件，对表A自身进行模糊匹配，以检测重复记录。TABLE A ID;SomeString有没有办法通过SQL对表A执行这种模糊匹配重复数据删除，将表B用作识别出的重复记录的模糊

浏览 32提问于2018-09-07得票数 1

回答已采纳

1回答

Java中名字列表的模糊匹配

、

我正在尝试使用模糊匹配库来匹配我们数据库中的名字列表。数据被序列化为java对象，希望了解如何将数据映射到模糊匹配器库中定义的文档对象中。我们有超过1000个用户在我们的数据库，并希望运行这些通过模糊匹配，以帮助检测重复。任何能帮助我们更好地理解库的代码片段都是有帮助的。

浏览 6提问于2020-08-03得票数 0

回答已采纳

1回答

在dataframe中删除重复值的两种方法之间的不同行为

我测试了两种将重复的行删除到dataframe中的方法，但是它们没有获得相同的结果，我不明白为什么。#else:第二种使用熊猫的方法是, header=None, names=['firstcolumn','second','third','forth']) df1.

浏览 2提问于2020-06-13得票数 0

回答已采纳

1回答

删除带有重复列的行--熊猫数据rows (Python)

、、

我有一个csv，我用熊猫阅读它，并创建了一个数据文件。Adolor sit amet C它有1034行和2列lorem ipsum Aamet sit dolor Bdf.drop_duplicates('

浏览 1提问于2017-04-29得票数 5

回答已采纳

2回答

域名系统是如何控制的？

我不知道域名系统如何在全球范围内避免相同域名的重复条目。假设我启动了一个域名服务器，并将域google.com映射到我的ip地址，其他域名服务器如何检测到这种模糊性？谁有责任避免这样的重复？

浏览 0提问于2009-12-23得票数 3

回答已采纳

1回答

检查python熊猫数据结构中的副本

、、

为此，我用了蟒蛇熊猫。pandas as pddf = pd.read_csv(csv_file)我想检查id列中的数据项是否有重复数据项存储在column_items中。在这种情况下，有一个重复。我正在使用python2.7和熊猫库。

浏览 2提问于2016-02-13得票数 1

回答已采纳

1回答

在crm插件中获取重复规则指定

、、、、

我正在创建2个重复的规则，在客户关系管理2011年联系。号码电话重复规则例如：联系人2：full_name = Diana Jackson ; email = prichardson4@usnews.com;同一邮件检测到2条重复规则我需

浏览 5提问于2015-10-21得票数 0

1回答

删除伪重复的熊猫

、

我有一个熊猫数据帧，有四列'id1'，'id2'，'info1‘和'info2’。我不仅希望删除传统意义上的重复项，而且还希望在交换id1和id2时删除重复项。示例：和必须被视为重复项。 id1和id2可以是任何类型，而不仅仅是整数、浮点数或字符串。

浏览 0提问于2018-03-15得票数 0

1回答

PySpark -运行Count() /聚合函数(平均值等)时的不一致性

、、、

 你好，我有一个ID和相关季度ID的数据格式(图像中的table1)。我的目标是在一天的最后，是随机选择一个ID，而不管季度。在这一步之后，

浏览 0提问于2021-06-05得票数 0

回答已采纳

1回答

使用重复检测在单独的列中输入1/0

、

条件格式设置选项可以很好地识别重复项。如何使用检测到的重复项将值写入单独的列?1表示重复，0表示不重复。我想我可以用一个基于细胞颜色的VBA函数。然而，Excel不将检测到的dup单元格颜色存储在“正常单元格颜色”属性中。注: 99不是浅红色的颜色，它只是供参考。

浏览 0提问于2014-07-22得票数 0

回答已采纳

1回答

我有一个重复检测规则来检查具有相同姓氏和相同名字的前两个字母的联系人，不区分大小写。我已选中该框以排除非活动的匹配记录，并且我没有进行任何直接数据库操作。为了测试重复检测，我用我的名字创建了一个联系人并保存了它。然后，我创建了一个具有相同姓氏的销售线索，名为Mike而不是Michael。当我尝试确认该销售线索并从中创建联系人时，我得到一个标题为“检测到重复项”的对话框，但在底部找到重复项的位置显示“潜在重复记录:无”

浏览 1提问于2012-09-27得票数 3

回答已采纳

2回答

从外部文件读取的记录将写入JDBC两次

、、、

这个问题困扰我的主要原因是，我甚至包含了一段代码，用于防止添加已经存在的记录。我几乎可以肯定，由于某些原因，更新只会被执行两次。我还检查了调用FillDatabase方法的方法不是在某种循环中，而是在实例化类时执行的基本公共方法。而且它只实例化一次。 public void FillDatabase(String filename) { Statement statement = dbConnection.createStatement(ResultSet.TYPE_SCROLL_S

浏览 2提问于2016-05-10得票数 0

1回答

模糊图像的一部分并将其与背景混合

、、

我需要模糊面孔，以保护人们在街景图片中的隐私，就像谷歌在谷歌街景中所做的那样。模糊不应使形象在美学上令人不快。我在谷歌()的“谷歌街景下的大规模隐私保护”( in Google by Google () )的报纸上看到，谷歌做了以下事情来模糊被检测到的面孔。我们选择应用混合噪声和侵略性高斯模糊，我们阿尔法混合与背景，从边缘开始的框。代码是有用的，但不是必需的。我的问题不是如何模糊图像的一

浏览 4提问于2016-05-19得票数 0

回答已采纳

点击加载更多