首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

搜索引擎中的URL散

(hash)也就是哈希,是信息存储和查询所用的一项基本技术。在搜索引擎中网络爬虫在抓取网页时为了对网页进行有效地排重必须对URL进行散,这样才能快速地排除已经抓取过的网页。...虽然google、百度都是采用分布式的机群进行哈希排重,但实际上也是做不到所有的网页都分配一个唯一散地址。但是可以通过多级哈希来尽可能地解决,但却要会出时间代价在解决哈希冲突问题。...所以这是一个空间和时间相互制约的问题,我们知道哈希地址空间如果足够大可以大大减少冲突次数,所以可以通过多台机器将哈希表根据一定的特征局部化,分散开来,每一台机器都是管理一个局部的散地址。   ...而采用MD5再哈希的方法明显对散地址起到了一个均匀发布的作用。

1.7K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python 哈希(hash) 散

    标准库里的所有映射类型都是利用 dict 来实现的,因此它们有个共同的限制,即只有可散的数据类型才能用作这些映射里的键,本文记录Python 中 hash 相关内容。...Python 中可散的数据类型 官方定义 翻译过来就是: 如果一个对象的哈希值在其生命周期中从不变化(它需要一个 __hash__()方法) ,并且可以与其他对象进行比较(它需要一个 _ eq _ (...如果要把一个对象放入散列表,那么首先要计算这个元素键的散值。 Python 中可以用 hash() 方法来做这件事情: 内置的 hash() 方法可以用于所有的内置类型对象。...为了获取 my_dict[search_key] 背后的值,Python 首先会调用 hash(search_key) 来计算 search_key 的散值,把这个值最低 的几位数字当作偏移量,在散列表里查找表元...参考资料 流畅的Python(2017年人民邮电出版社出版) https://docs.python.org/3/glossary.html#term-hashable https://baike.baidu.com

    2.3K20

    Python的可散对象

    这里先介绍Python语言中的可散对象。 散函数 在介绍散列表以及它在Python中的实现之前,先简要说明散函数及其工作原理。...Python的内置散函数 Python的内置函数hash()是一个散函数,它能够返回输入对象的十进制整数形式的散值。...特别注意,Python的hash()函数返回的是整数对象,这些对象在标准的64位Python 3解释器中始终以24个字节表示。 如上述代码,默认情况下,整数的散值是其本身。...可散类型 在Python内置的对象类型中,并非都是可散的,只有那些不可变对象,比如整数、浮点数、字符串、元组等,才是可散的。...前面提到,Python中的对象分为可散和不可散两种类型,而这里检测之后,所有内置对象类型都具有__hash__方法,是不是意味着都能用于hash()函数呢?前面说过可变对象是不可散类型。

    5K20

    手撕Python之散类型

    序列类型是有顺序的,散类型是没有顺序的 字典也是没有顺序的,如果想访问值的话,我们是需要通过键进行获取的 在字典之内不管顺序怎么变我们都能通过键进行访问 字典注意事项 键必须是唯一的 #键必须是唯一的...这个函数会将我们输入的要添加的序列或者是散给拆分了 #添加序列的话 #update(序列/散) j.update("你好") print(j) #{1, 2, 3, 5, 6, 'hu', '你'..., '好', '你好啊'} #可以发现我们后面输入的被拆开了 #将我们输入的序列或者是散类型的数据拆开放到集合中 括号内是不能够写数字的,会报错,因为括号内只能写序列和散 4.删除 #### 4.1remove...主要是判断某个内容在这一堆是否存在 使用格式:数据 in 序列/散 判断数据是不是序列/散的成员 成员运算符的使用 #判断字符p是不是python的成员 print('p'in'pyhton')...'李四''张三''王二'] if "小明" in li:#判断小明在不在名字列表里面 print(True) else: print(False) #False #判断字符q是否不是python

    3510
    领券