Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >python set 交集、并集、差集

python set 交集、并集、差集

作者头像
用户7886150
修改于 2021-01-26 02:29:28
修改于 2021-01-26 02:29:28
3.7K0
举报
文章被收录于专栏:bit哲学院bit哲学院

参考链接: Python Set intersection()

交集(intersection) 

example:

valid = set(['yellow', 'red', 'blue', 'green', 'black'])

input_set = set(['red', 'brown']) 

print(input_set.intersection(valid))

### 输出:set(['red'])

# 方法一:

>>> a=[2,3,4,5]

>>> b=[2,5,8]

>>> tmp = [val for val in a if val in b]

>>> tmp

[2, 5]

# 方法二

>>> list(set(a).intersection(set(b)))

[2, 5]

# 方法三:

>>>list(set(a) & set(b))

[2, 5] 

字符串交集 

# 方法一:

''.join(sorted(set(str1) & set(str2), key = str1.index))

# 方法二:

def strIntersection(s1, s2):

  out = ""

  for c in s1:

    if c in s2 and not c in out:

      out += c

  return out

# 方法三:

>>> a='asdfasdfasfd'

>>> b='qazwsxedc'

>>> set(a).intersection(b)

set(['a', 's', 'd'])

# 方法四:

def hasIntersection(a, b):

        return not set(a).isdisjoint(b) 

最大交集 

 How to find all intersections (also called the longest common substrings) of two strings and their positions in both strings?  For example:  if S1=”never” and S2=”forever” then resulted intersection must be [“ever”] and its positions are [(1,3)].  If S1=”address” and S2=”oddness” then resulted intersections are [“dd”,”ess”] and their positions are [(1,1),(4,4)]. 

# 方法一:

In [31]: import difflib

In [32]: difflib.SequenceMatcher(None, "never", "forever").get_matching_blocks()

Out[32]: [Match(a=1, b=3, size=4), Match(a=5, b=7, size=0)]

In [33]: difflib.SequenceMatcher(None, "address", "oddness").get_matching_blocks()

Out[33]: [Match(a=1, b=1, size=2), Match(a=4, b=4, size=3), Match(a=7, b=7, size=0)]

# 方法二:

import itertools

def longest_common_substring(s1, s2):

   set1 = set(s1[begin:end] for (begin, end) in

              itertools.combinations(range(len(s1)+1), 2))

   set2 = set(s2[begin:end] for (begin, end) in

              itertools.combinations(range(len(s2)+1), 2))

   common = set1.intersection(set2)

   maximal = [com for com in common

              if sum((s.find(com) for s in common)) == -1 * (len(common)-1)]

   return [(s, s1.index(s), s2.index(s)) for s in maximal]

>>> longest_common_substring('address', 'oddness')

[('dd', 1, 1), ('ess', 4, 4)]

>>> longest_common_substring('never', 'forever')

[('ever', 1, 3)]

>>> longest_common_substring('call', 'wall')

[('all', 1, 1)]

>>> longest_common_substring('abcd1234', '1234abcd')

[('abcd', 0, 4), ('1234', 4, 0)] 

并集(union) 

# 方法一:

>>> list(set(a).union(set(b)))

[2, 3, 4, 5, 8]

# 方法二:

>>> list(set(b) | (set(a)))

[2, 3, 4, 5, 8] 

差集(difference) 

 差集:找出无效的数据,相当于用一个集合减去另一个集合的数据。 

# example:

valid = set(['yellow', 'red', 'blue', 'green', 'black'])

input_set = set(['red', 'brown'])

print(input_set.difference(valid))

### 输出: set(['brown'])

# 方法一:

>>> list(set(b).difference(set(a)))       # b中有而a中没有的

[8]

# 方法二:

>>> list(set(b) - (set(a)))

[8] 

集合操作汇总 

>>> x = set('abcde')

>>> y = set('bdxyz')

>>> x

set(['a', 'c', 'b', 'e', 'd'])                    # 2.6 display format

>>> 'e' in x                                      # Membership 成员

True

>>> x – y                                         # Difference 差集

set(['a', 'c', 'e'])

>>> x | y                                         # Union 并集

set(['a', 'c', 'b', 'e', 'd', 'y', 'x', 'z'])

>>> x & y                                         # Intersection 交集

set(['b', 'd'])

>>> x ^ y                                         # Symmetric difference (XOR) 补集

set(['a', 'c', 'e', 'y', 'x', 'z'])

>>> x > y, x < y                                  # Superset, subset  父级,子级

(False, False) 

巨型集合处理(数量在百万,千万甚至更大) 

 方法一:set  特点:  - 速度快;  - 内存消耗大,一个1万个元素的集合,其占用的内存远大于1万 * 每个元素的大小,因为整个set数据结构占用大量其他空间来存储索引之类的东西。 

并集:s.union(t) 或者 s | t

交集:s.intersection(t) 或者 s & t

差集:s.difference(t) 或者 s - t 

 方法二:Numpy  特点:  - 先把要操作的元素放在数组而不是set中,同样内容的数组占用的内存比set小的多;占用内存小于set的方式;  - 速度接近set方式。 

import numpy as np

并集: np.union1d(s, t)    # 返回排序的、去重的两个list的合集

交集: np.intersect1d(s, t, assume_unique=True)    # 返回排序的、去重的两个list的交集,尽可能保证传入的两个list是去重的,这可以加快运算速度。

差集: np.setdiff1d(s, t, assume_unique=True)    # 返回排序的,去重的差集,assume_unique参数同上。 

 方法三:cmd  以上两种方法的缺点就是当集合足够大而内存又不够的时候,会MemoryError(在试验中2000万个长度为24的字符串在4G的内存中就报MemoryError了);  解决办法:使用linux 命令。  特点:  - 内存消耗小,会使用临时文件来避免内存问题;  - 耗时长。 

1.文件排序,使用sort命令:

sort --buffer-size=1G --output=/path/to/output /path/to/src_file    # --buffer-size在Debian上可用,其他平台未知,不是标准参数.

并集:sort -m /path/to/src1 /path/tosrc2 -u --output=/path/to/result    # 注意src1, src2必须是已排序的文件,而且结果也是已排序的。

交集:comm -12 file1 file2 > output    # 使用comm命令,注意传入的文件必须都是已排序的。

差集:comm -3 file1 file2 > output    # 使用comm命令,注意传入的文件必须都是已排序的。 

综上,三种方法依次对内存的依赖减小,耗时增加,可依据集合大小以及硬件环境来选择。 

 作者:Chihwei_hsu  来源:http://chihweihsu.com  Github:https://github.com/HsuChihwei

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
python基础——集合【交集`&`、并集`|`、差集`-`、方法:`difference`和`difference_update`以及add、remove和union】
1,交集&,即:两个集合中都共有的元素 2,并集|, 即:两个集合中的所有元素,相同的元素要被删除 3,差集-, 即:集合一有但是集合二没有的元素 (注意📢:上面的三个操作都不是对原集合进行修改,而是返回一个新的集合)
用户11029137
2024/03/24
6230
python基础——集合【交集`&`、并集`|`、差集`-`、方法:`difference`和`difference_update`以及add、remove和union】
C++拾取——stl标准库中集合交集、并集、差集、对称差方法
STL库中有丰富的集合运算方法,我们可以使用它们快速完成交集、并集、差集、对称差集的运算。(转载请指明出于breaksoftware的csdn博客)
方亮
2020/08/02
2.8K0
python-集合
1 Set 定义:set可以用{}表示,但是不能用s{}这样定义,如果这样写,python编辑器会默认为是字典。
py3study
2020/01/13
4590
STL set
STL 对这个序列可以进行查找,插入删除序列中的任意一个元素,而完成这些操作的时间同这个序列中元素个数的对数成比例关系,并且当游标指向一个已删除的元素时,删除操作无效。而一个经过更正的和更加实际的定义应该是:一个集合(set)是一个容器,它其中所包含的元素的值是唯一的。这在收集一个数据的具体值的时候是有用的。集合中的元素按一定的顺序排列,并被作为集合中的实例。一个集合通过一个链表来组织,在插入操作和删除操作上比向量(vector)快,但查找或添加末尾的元素时会有些慢。具体实现采用了红黑树的平衡二叉树的数据结构。
十四君
2019/11/27
6640
【七】Python基础之数据结构:集合
集合之间也可进行数学集合运算(例如:并集、交集等),可用相应的操作符或方法来实现。
菲宇
2019/06/13
4270
python基础教程:set(集合)
Python集合(set),是一个很有意思的数据结构。从形式上看,它像字典有key但没有value,它的写法是这样的s = {'a', 'b', 'c'},是不是像一个没有value的字典?另一方面,它又像是一个用花括号替换了方括号的列表,但它不能像列表那样用索引访问元素。
一墨编程学习
2019/05/15
7360
python set(集合)
set和dict类似,也是一组key的集合,但不存储value。由于key不能重复,所以,在set中,没有重复的key。 集合是一个无序的,不重复的数据组合,它的主要作用如下: 去重,把一个列表变成集合,就自动去重了 关系测试,测试两组数据之前的交集、差集、并集等关系 集合(set):把不同的元素组成一起形成集合,是python基本的数据类型。 集合元素(set elements):组成集合的成员(不可重复) >>> li=[1,2,'a','b'] >>> s =set(li) >>> print(s
py3study
2020/01/08
5770
python基础知识(三)set集合
set集合 不同元素组成 无序 集合中元素必须是不可变的类型 s={1,2,3,4,5,6} #增加 s.add("s") #清空 s.clear() #弹出 s.pop() #删除指定值,删除元素不存在报错 s.remove("s") #删除指定值,删除元素不存在不报错 s.discard("ss") li=["xi","ha","list"] lx_li = [ 'hua','ha'] new_li = set(li) new_lx=set(lx_li) print(new_li,new_lx) #求交
py3study
2020/01/08
2980
python入门:集合set
在前面的几篇Python的文章中,我们介绍了Python的多种不同类型的对象:字符串、列表、元组、字典。它们有各自的特点:
皮大大
2021/09/02
8150
python入门:集合set
[195]python set()和frozenset()函数
set() 函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集、差集、并集等。
周小董
2022/04/12
4410
python 集合
说明: 拿list_1每一个元素去list_2中查找,如果有,直接忽略,否则就直接输出。
py3study
2018/08/02
6910
使用Stream流完成并集、交集和差集
使用Stream流完成并集、交集和差集 一、介绍 本文将进行介绍使用Stream流的方式,来完成对象集合的并集、交集和差集。 二、代码 先建立一个User.java,一会使用它来创建集合,并重写了它的equals方法 package com.banmoon.test; import lombok.AllArgsConstructor; import lombok.Data; import java.util.Objects; /** * @author banmoon */ @Data @AllA
半月无霜
2023/03/03
1.2K0
使用Stream流完成并集、交集和差集
Python之集合类型set(集合的特性及常用方法等)
li = [1,2,3,1,2,3]      #将列表转化为集合,去掉重复的项,再将集合转化为列表
用户7886150
2021/01/25
6400
python 集合set的创建,更改,遍历,元算合并,交集,补集
r = set([1,2,3,34,15,25,35,45,75]) 列表转化到set
用户7886150
2021/01/12
6720
Python内置数据结构之集合
今天给大家介绍内置数据结构集合的用法。 看一下集合的思维导图: 集合的特点 元素是唯一的 元素是无序的,不是线性结构 集合元素是可hash的 聚合的含义和数学上的含义相同 集合的操作 增:add,up
1846122963
2018/03/09
1K0
Python内置数据结构之集合
【Python】10、python内置数
      pop      随机删除一个元素并返回,集合为空返回KeyError,
py3study
2020/01/10
9440
Python “集合” 100道实战题目练习,巩固知识、检查技术
题目9:以下哪个表达式的结果是一个集合? A. {1, 2, 3} + {3, 4, 5} B. {1, 2, 3} & {3, 4, 5} C. {1, 2, 3} * 2 D. {1, 2, 3} - {3, 4, 5}
小白的大数据之旅
2024/11/20
2480
python set大小_python set集合
s7= {[1],(1,),1} #set的元素要求必须可以hash 列表不能hash
用户7886150
2021/01/26
1.7K0
Python内置容器(1)——列表,元组
---------------------------------------------------------------------------
py3study
2020/01/08
4990
一句Python,一句R︱数据的合并、分组、排序、翻转、集合
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/52293091
悟乙己
2019/05/26
1.3K0
推荐阅读
相关推荐
python基础——集合【交集`&`、并集`|`、差集`-`、方法:`difference`和`difference_update`以及add、remove和union】
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档