首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何从heritrix抓取中排除除text/html之外的所有内容?

从heritrix抓取中排除除text/html之外的所有内容,可以通过配置heritrix的过滤规则来实现。

具体步骤如下:

  1. 打开heritrix的配置文件,通常是crawler-beans.cxmlcrawler-beans.cxml.gz
  2. 在配置文件中找到<bean id="decideRules" class="org.archive.modules.deciderules.DecideRuleSequence">,这是决策规则的配置部分。
  3. <bean id="decideRules" class="org.archive.modules.deciderules.DecideRuleSequence">标签内部,找到<bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">,这是根据内容类型匹配的规则。
  4. <bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">标签内部,找到<property name="listLogicalOr" value="true"/>,将其改为false,表示后续的规则是与逻辑关系。
  5. <bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">标签内部,找到<property name="regexpList">,这是内容类型匹配的正则表达式列表。
  6. <property name="regexpList">标签内部,添加一个<value>标签,填入要排除的内容类型的正则表达式。例如,要排除所有非text/html类型的内容,可以添加<value>^(?!text/html).*$</value>
  7. 保存配置文件并重新启动heritrix。

这样配置后,heritrix在抓取网页时会根据内容类型进行过滤,排除除text/html之外的所有内容。

注意:以上步骤是基于heritrix 3.x版本的配置,不同版本的heritrix可能有细微差别,请根据实际情况进行调整。

推荐的腾讯云相关产品:腾讯云CDN(内容分发网络),详情请参考腾讯云CDN产品介绍

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • 【推荐收藏】33款可用来抓数据的开源爬虫软件工具

    要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接

    05

    【重磅】33款可用来抓数据的开源爬虫软件工具

    要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接

    05
    领券