首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    搜索引擎中的URL散列

    散列(hash)也就是哈希,是信息存储和查询所用的一项基本技术。在搜索引擎中网络爬虫在抓取网页时为了对网页进行有效地排重必须对URL进行散列,这样才能快速地排除已经抓取过的网页。最理想的状态是对联网上所有的网页都分配一个哈希地址,可想而知这是一个相当宠大的数字,但实际上往往是无法做到这一点。虽然google、百度都是采用分布式的机群进行哈希排重,但实际上也是做不到所有的网页都分配一个唯一散列地址。但是可以通过多级哈希来尽可能地解决,但却要会出时间代价在解决哈希冲突问题。所以这是一个空间和时间相互制约的问题,我们知道哈希地址空间如果足够大可以大大减少冲突次数,所以可以通过多台机器将哈希表根据一定的特征局部化,分散开来,每一台机器都是管理一个局部的散列地址。

    03

    .NET 框架中的 WMI 命名空间

    .NET 框架中与 WMI 规范有关的命名空间有两个 , 分别是 System.Management 和 System.Management.Instrumentation 两个命名空间。其中 System.Managemen 命名空间提供的类对象为访问各种管理对象提供了面向对象的编程接口,而 System.Management.Instrumentation 命名空间提供的类用来设置用户自定义的应用程序,使得这些应用程序对象能够符合 WMI 的规范,从而通过 WMI 向使用该应用程序的管理者公开其提供的管理信息和事件,这些使用者有可能是 Microsoft Application Center 或 Microsoft Operations Manager 这样的,也有可能是自定义编写的高端管理应用程序(您可以通过 System.Management 命名空间提供的类对象来编写自己的管理应用程序)。因此,如果您想使自己的产品的管理可以在这些管理工具,您就得使您自己的应用程序符合 WMI 的规范,而针对 .NET 平台上的应用程序 WMI 规范编写来说,使用的是 System.Management.Instrumentation 命名空间提供的类。

    04
    领券