尝试使用python爬网站点时出错

、、

我正在试着从this website那里得到一些显示器的价格。以下是我的代码： def noteBooksBillgerParser(url): 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36'}

浏览 15提问于2019-03-21得票数 1

回答已采纳

1回答

SharePoint 2010 search中的爬网程序影响规则和爬网规则有何不同？

、、

SharePoint 2010 search中的爬网程序影响规则和爬网规则有何不同？

浏览 1提问于2011-02-13得票数 4

回答已采纳

1回答

如何在windows中配置nutch 1.8错误: nutch : command not found

、

我正在尝试在Windows7中配置nutch，我已经按照以下步骤操作<configurationapache home命令中，我执行了->cd urls在conf/regex-urlf

浏览 0提问于2014-04-28得票数 1

1回答

nutch crawl不使用seed.txt中的所有条目

、

我正在使用 apache-nutch-1.6，我可以成功抓取网站。我的问题是并非使用了seed.txt 文件中的所有条目。这取决于里面有哪些站点。那么有没有限制爬多少？没有错误信息。就像我删除一个站点一样，另一个站点会被深度爬网，无论另一个站点是否存在，这个站点都会被爬网，而从其他站点中，只有我相信的顶级站点....

浏览 0提问于2014-06-06得票数 0

1回答

MS Search Server 2010 Express:需要cookie的站点的爬网规则问题

、、、、

我正在尝试使用Search Server Express 2010通过管理中心为一个非SharePoint站点创建一个爬网规则。我不确定cookie文件应该是什么格式，但是我尝试过的各种格式都提供了这个错误，并且我在网上找不到预期的格式。有没有人能提供指向正确格式的链接？如果我尝试指定一个URL来获取cookie，我会在IE8中得到以下JS错误。 “拒绝访问FormsAuthenticationProxyPage.aspx第138行。”如果用户代理与爬虫程序匹配，我还<

浏览 6提问于2012-11-13得票数 4

4回答

web爬虫在对web服务器的重复请求之间等待的最佳持续时间是多少

、

是否存在一些标准的持续时间，爬虫必须在重复命中同一服务器之间等待，以避免使服务器负担过重。这个值在不同的服务器上是否也不同...如果是这样的话，如何确定呢？

浏览 0提问于2009-04-28得票数 7

1回答

使用Open Search Server爬行受STS保护的站点

、、

我已经配置了，它在所有开放站点上都工作得很好。但我无法抓取使用进行身份验证的受保护站点。我已经为web crawler指定了所有身份验证参数(模式、用户名和密码)，但它不是爬网。如何使用Open Search Server web crawler对受STS保护的网站进行爬网？

浏览 2提问于2013-01-10得票数 0

1回答

Nutch搜索始终返回0个结果

、、、

它已经设置并成功爬网，我使用dfs-copyToLocal复制了爬网目录并设置了searcher的值。dir在nutch站点。位于tomcat目录中的xml文件，以指向该目录。当我尝试搜索时，仍然收到0个结果。任何帮助都将不胜感激。

浏览 0提问于2009-06-04得票数 1

1回答

SP2010搜索不显示作用域和站点上的数据

当我在SP 2010的中央管理员上查看爬网日志时，我看到了爬网内容。我还可以看到我在其中一个站点添加的爬网日志中的内容。但是当我去这个网站搜索的时候，我得不到任何结果。

浏览 3提问于2011-02-21得票数 1

回答已采纳

1回答

使用scrapy爬网时出错

、

我正在使用scrapy报废一些页面，但是每当我尝试启动爬虫时，它都会停止并出现以下错误。 from OpenSSL.操作系统- Mac OS High Sierra Python - V2.7 PIP - 10.1

浏览 0提问于2018-05-03得票数 2

1回答

使用nutch爬网时出错

、

我试着用nutch抓取网站，得到了这个错误： Exception in thread "main" java.io.IOException: Job failed! at org.apache.nutch.crawl.Injector.inject(Injector.java:296)

浏览 1提问于2013-04-23得票数 1

回答已采纳

2回答

Crawler不创建自定义爬网属性

、、

当fill crawl完成时，我在Crawl日志中看到我的所有页面都已成功抓取，并且当我使用一些测试工具查询搜索时，我的页面已被找到。在爬网日志中，很少出现像这样的错误：“crawler无法与服务器通信。请检查服务器是否可用以及防火墙访问是否配置正确。”，但此页库中的所有页都已被索引。问题是，我在搜索查询中使用了自定义托管属性(映射到自定义爬网属性)，但crawler并没有为我的所有新站点列创建爬网

浏览 0提问于2009-09-15得票数 3

2回答

Robots.txt不工作

、

我已经使用robots.txt限制了我站点中的一个文件夹。该文件夹由在建的站点组成。谷歌已经索引了所有处于测试阶段的网站。所以我使用了robots.txt。我首先提交了站点，并且启用了robots.txt。现在www.mysite.com/robots.txt的状态是成功。但谷歌仍在列出这些测试链接。以下是我为robots.txt编写的代码...

浏览 1提问于2010-09-08得票数 6

2回答

手动将项目添加到SharePoint Search索引

、、、

我正在寻找一种方法来添加一个文件到搜索索引使用API，因为和当文件被添加到文档库。我可以添加eventhandler并编写代码来调用API。我需要知道API是否支持这样的接口。

浏览 0提问于2011-07-14得票数 2

4回答

Scrapy问题

、、

我正在尝试让SgmlLinkExtractor正常工作。restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)谢谢你的帮助。

浏览 1提问于2009-11-28得票数 9

回答已采纳

1回答

Sharepoint 2010 search无法爬网mediawiki网站

、、、、

使用Sharepoint 2010企业搜索，我们正在尝试爬行基于内部媒体维基的维基站点。搜索失败，错误为：“该URL已永久移动。( URL重定向至... )”。由于wiki站点具有区分大小写的URL，因此当Sharepoint 2010尝试使用小写URL名称进行爬网时，Wiki会说“页面不存在”并使用301！重定向有人有解决方案吗？提前谢谢。

浏览 1提问于2011-05-17得票数 4

回答已采纳

1回答

如何使用SharePoint 2013中的内容搜索网站部件获取当前用户是网站所有者的所有网站？

我有一个要求，使用CSWP，我想要显示所有网站，其中当前登录的用户是网站所有者。根据我的调查，有一个名为'SiteOwners‘的托管属性可能会给出我的结果，但没有与此托管属性相关联的爬网属性。我还想显示当前登录用户是站点成员的所有站点。还有另一个托管属性“”SiteMembers“”。没有与此托管属性关联的爬网属性。“”那么如何得到结果呢？

浏览 4提问于2015-02-02得票数 0

1回答

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

、、

然后使用Solr搜索就可以了。但我面临着很多问题。如果在google上搜索，那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。以下是我的一些问题：2) Solr有什么用？3)我们可以使用Solr和Nutch完成搜索吗？如果是，那么他们将把抓取的索引保存在哪里？ 4) Solr如何与Hadoop通信？

浏览 2提问于2012-09-06得票数 3

1回答

Solr 5.0和Nutch 1.10

、

我在windows server 2008 R2上使用solr5.0，nutch1.10和cygwin。我发出的命令如下：据我所知，2是爬行的轮数。当我执行此命令并读取crawldb时，我只收到127个url，这比预期的要少得多。此外，它不会在更深的深度爬行。当我发出这个命令将数据传递给Solr时： bin/nutch solrindex段爬网<

浏览 0提问于2015-06-03得票数 0

2回答

抓取大型站点，处理超时

、、、、

但是由于有大约4500个主题，我有一些问题，我有时会有一个超时错误，在这之后我必须从头开始尝试(有时在200个主题之后，另一些时间在2200个主题之后)。

浏览 0提问于2013-06-12得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

SharePoint 2010 search中的爬网程序影响规则和爬网规则有何不同？

如何在windows中配置nutch 1.8错误: nutch : command not found

nutch crawl不使用seed.txt中的所有条目

MS Search Server 2010 Express:需要cookie的站点的爬网规则问题

web爬虫在对web服务器的重复请求之间等待的最佳持续时间是多少

使用Open Search Server爬行受STS保护的站点

Nutch搜索始终返回0个结果

SP2010搜索不显示作用域和站点上的数据

使用scrapy爬网时出错

使用nutch爬网时出错

Crawler不创建自定义爬网属性

Robots.txt不工作

手动将项目添加到SharePoint Search索引

Scrapy问题

Sharepoint 2010 search无法爬网mediawiki网站

如何使用SharePoint 2013中的内容搜索网站部件获取当前用户是网站所有者的所有网站？

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

Solr 5.0和Nutch 1.10

抓取大型站点，处理超时

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐