腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
尝试
使用
python
爬
网
站点
时
出错
、
、
我正在试着从this website那里得到一些显示器的价格。以下是我的代码: def noteBooksBillgerParser(url): 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36'}
浏览 15
提问于2019-03-21
得票数 1
回答已采纳
1
回答
SharePoint 2010 search中的
爬
网
程序影响规则和
爬
网
规则有何不同?
、
、
SharePoint 2010 search中的
爬
网
程序影响规则和
爬
网
规则有何不同?
浏览 1
提问于2011-02-13
得票数 4
回答已采纳
1
回答
如何在windows中配置nutch 1.8错误: nutch : command not found
、
我正在
尝试
在Windows7中配置nutch,我已经按照以下步骤操作<configurationapache home命令中,我执行了->cd urls在conf/regex-urlf
浏览 0
提问于2014-04-28
得票数 1
1
回答
nutch crawl不
使用
seed.txt中的所有条目
、
我正在
使用
apache-nutch-1.6,我可以成功抓取网站。我的问题是并非
使用
了seed.txt 文件中的所有条目。这取决于里面有哪些
站点
。那么有没有限制
爬
多少?没有错误信息。就像我删除一个
站点
一样,另一个
站点
会被深度
爬
网
,无论另一个
站点
是否存在,这个
站点
都会被
爬
网
,而从其他
站点
中,只有我相信的顶级
站点
....
浏览 0
提问于2014-06-06
得票数 0
1
回答
MS Search Server 2010 Express:需要cookie的
站点
的
爬
网
规则问题
、
、
、
、
我正在
尝试
使用
Search Server Express 2010通过管理中心为一个非SharePoint
站点
创建一个
爬
网
规则。我不确定cookie文件应该是什么格式,但是我
尝试
过的各种格式都提供了这个错误,并且我在网上找不到预期的格式。有没有人能提供指向正确格式的链接?如果我
尝试
指定一个URL来获取cookie,我会在IE8中得到以下JS错误。 “拒绝访问FormsAuthenticationProxyPage.aspx第138行。”如果用户代理与爬虫程序匹配,我还<
浏览 6
提问于2012-11-13
得票数 4
4
回答
web爬虫在对web服务器的重复请求之间等待的最佳持续时间是多少
、
是否存在一些标准的持续时间,爬虫必须在重复命中同一服务器之间等待,以避免使服务器负担过重。这个值在不同的服务器上是否也不同...如果是这样的话,如何确定呢?
浏览 0
提问于2009-04-28
得票数 7
1
回答
使用
Open Search Server爬行受STS保护的
站点
、
、
我已经配置了,它在所有开放
站点
上都工作得很好。但我无法抓取
使用
进行身份验证的受保护
站点
。我已经为web crawler指定了所有身份验证参数(模式、用户名和密码),但它不是
爬
网
。如何
使用
Open Search Server web crawler对受STS保护的网站进行
爬
网
?
浏览 2
提问于2013-01-10
得票数 0
1
回答
Nutch搜索始终返回0个结果
、
、
、
它已经设置并成功
爬
网
,我
使用
dfs-copyToLocal复制了
爬
网目录并设置了searcher的值。dir在nutch
站点
。位于tomcat目录中的xml文件,以指向该目录。当我
尝试
搜索
时
,仍然收到0个结果。 任何帮助都将不胜感激。
浏览 0
提问于2009-06-04
得票数 1
1
回答
SP2010搜索不显示作用域和
站点
上的数据
当我在SP 2010的中央管理员上查看
爬
网
日志
时
,我看到了
爬
网内容。我还可以看到我在其中一个
站点
添加的
爬
网
日志中的内容。但是当我去这个网站搜索的时候,我得不到任何结果。
浏览 3
提问于2011-02-21
得票数 1
回答已采纳
1
回答
使用
scrapy
爬
网
时
出错
、
我正在
使用
scrapy报废一些页面,但是每当我
尝试
启动爬虫
时
,它都会停止并出现以下错误。 from OpenSSL.操作系统- Mac OS High Sierra
Python
- V2.7 PIP - 10.1
浏览 0
提问于2018-05-03
得票数 2
1
回答
使用
nutch
爬
网
时
出错
、
我试着用nutch抓取网站,得到了这个错误: Exception in thread "main" java.io.IOException: Job failed! at org.apache.nutch.crawl.Injector.inject(Injector.java:296)
浏览 1
提问于2013-04-23
得票数 1
回答已采纳
2
回答
Crawler不创建自定义
爬
网
属性
、
、
当fill crawl完成
时
,我在Crawl日志中看到我的所有页面都已成功抓取,并且当我
使用
一些测试工具查询搜索
时
,我的页面已被找到。在
爬
网
日志中,很少出现像这样的错误:“crawler无法与服务器通信。请检查服务器是否可用以及防火墙访问是否配置正确。”,但此页库中的所有页都已被索引。问题是,我在搜索查询中
使用
了自定义托管属性(映射到自定义
爬
网
属性),但crawler并没有为我的所有新
站点
列创建
爬
网
浏览 0
提问于2009-09-15
得票数 3
2
回答
Robots.txt不工作
、
我已经
使用
robots.txt限制了我
站点
中的一个文件夹。该文件夹由在建的
站点
组成。谷歌已经索引了所有处于测试阶段的网站。所以我
使用
了robots.txt。我首先提交了
站点
,并且启用了robots.txt。现在www.mysite.com/robots.txt的状态是成功。但谷歌仍在列出这些测试链接。以下是我为robots.txt编写的代码...
浏览 1
提问于2010-09-08
得票数 6
2
回答
手动将项目添加到SharePoint Search索引
、
、
、
我正在寻找一种方法来添加一个文件到搜索索引
使用
API,因为和当文件被添加到文档库。 我可以添加eventhandler并编写代码来调用API。我需要知道API是否支持这样的接口。
浏览 0
提问于2011-07-14
得票数 2
4
回答
Scrapy问题
、
、
我正在
尝试
让SgmlLinkExtractor正常工作。restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)谢谢你的帮助。
浏览 1
提问于2009-11-28
得票数 9
回答已采纳
1
回答
Sharepoint 2010 search无法
爬
网
mediawiki网站
、
、
、
、
使用
Sharepoint 2010企业搜索,我们正在
尝试
爬行基于内部媒体维基的维基
站点
。搜索失败,错误为:“该URL已永久移动。( URL重定向至... )”。由于wiki
站点
具有区分大小写的URL,因此当Sharepoint 2010
尝试
使用
小写URL名称进行
爬
网
时
,Wiki会说“页面不存在”并
使用
301!重定向 有人有解决方案吗?提前谢谢。
浏览 1
提问于2011-05-17
得票数 4
回答已采纳
1
回答
如何
使用
SharePoint 2013中的内容搜索网站部件获取当前用户是网站所有者的所有网站?
我有一个要求,
使用
CSWP,我想要显示所有网站,其中当前登录的用户是网站所有者。根据我的调查,有一个名为'SiteOwners‘的托管属性可能会给出我的结果,但没有与此托管属性相关联的
爬
网
属性。我还想显示当前登录用户是
站点
成员的所有
站点
。还有另一个托管属性“”SiteMembers“”。没有与此托管属性关联的
爬
网
属性。“”那么如何得到结果呢?
浏览 4
提问于2015-02-02
得票数 0
1
回答
如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?
、
、
然后
使用
Solr搜索就可以了。但我面临着很多问题。如果在google上搜索,那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。以下是我的一些问题:2) Solr有什么用?3)我们可以
使用
Solr和Nutch完成搜索吗?如果是,那么他们将把抓取的索引保存在哪里? 4) Solr如何与Hadoop通信?
浏览 2
提问于2012-09-06
得票数 3
1
回答
Solr 5.0和Nutch 1.10
、
我在windows server 2008 R2上
使用
solr5.0,nutch1.10和cygwin。我发出的命令如下:据我所知,2是爬行的轮数。当我执行此命令并读取crawldb
时
,我只收到127个url,这比预期的要少得多。此外,它不会在更深的深度爬行。当我发出这个命令将数据传递给Solr
时
: bin/nutch solrindex段
爬
网<
浏览 0
提问于2015-06-03
得票数 0
2
回答
抓取大型
站点
,处理超时
、
、
、
、
但是由于有大约4500个主题,我有一些问题,我有时会有一个超时错误,在这之后我必须从头开始
尝试
(有时在200个主题之后,另一些时间在2200个主题之后)。
浏览 0
提问于2013-06-12
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用 Python 爬取简书网的所有文章
Python3网络爬虫:使用Selenium爬取百度文库word文章
爬虫实战:爬取当当网所有 Python 书籍
怪不得你的爬虫一页数据都抓不到,原来是忽视了这一点
制作安装在手机上的爬虫软件,python在电脑端爬取小说算什么?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券