前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >搜索引擎中的URL散列

搜索引擎中的URL散列

作者头像
Java架构师必看
发布2021-03-22 10:56:21
发布2021-03-22 10:56:21
1.7K0
举报
文章被收录于专栏:Java架构师必看Java架构师必看

散列(hash)也就是哈希,是信息存储和查询所用的一项基本技术。在搜索引擎中网络爬虫在抓取网页时为了对网页进行有效地排重必须对URL进行散列,这样才能快速地排除已经抓取过的网页。最理想的状态是对联网上所有的网页都分配一个哈希地址,可想而知这是一个相当宠大的数字,但实际上往往是无法做到这一点。虽然google、百度都是采用分布式的机群进行哈希排重,但实际上也是做不到所有的网页都分配一个唯一散列地址。但是可以通过多级哈希来尽可能地解决,但却要会出时间代价在解决哈希冲突问题。所以这是一个空间和时间相互制约的问题,我们知道哈希地址空间如果足够大可以大大减少冲突次数,所以可以通过多台机器将哈希表根据一定的特征局部化,分散开来,每一台机器都是管理一个局部的散列地址。

   一般情况下所有哈希函数,如果其原始字符串很相似则哈希地址冲突的几率就加大,所以同一个网站下的网页URL冲突的几率也就很大,特别是那些带参数的动态网页URL。所以我可以将原始的URL进行一次标准化处理后再做哈希这样就会有很大的改善,本人通过大量的实验发现先对URL进行一次MD5的加密,然后再对加密后的这个串再哈希这样大大提高了哈希的效率。下面是一些实验结果。(100网页地址空间,而10万的网页URL)。

方法

URL长度(20个字符)

URL长度(128个字符)

直接哈希

6000多次

8万多次

MD5后再哈希

少于500次

少于500次

    可见URL长度越长直接哈希其冲突率越高,因为其哈希值过于集中。而采用MD5再哈希的方法明显对散列地址起到了一个均匀发布的作用。

本文由来源 21aspnet,由 javajgs_com 整理编辑,其版权均为 21aspnet 所有,文章内容系作者个人观点,不代表 Java架构师必看 对观点赞同或支持。如需转载,请注明文章来源。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档