腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?
、
、
5)请解释我一个步骤,如果可能的话,我如何爬行一些网站,并将其信息保存到
数据
库(Hadoop或任何其他),然后做搜索。提前说一声非常感谢。
浏览 2
提问于2012-09-06
得票数 3
1
回答
如何更改Crawler4j中的默认crawlStorageFolder?
、
、
、
、
当我尝试Crawler4j 的快速入门时,我想这是我应该更改结果存储位置的地方。 public static void main(String[] args) throws Exception { int numberOfCrawlers = 7;
浏览 5
提问于2016-09-11
得票数 0
3
回答
聚合器是如何构建的?
、
、
、
我该
怎么
做呢? 有一个
爬虫
/
爬虫
,它会
爬
网寻找我需要的信息(我如何告诉
爬虫
要爬行什么,因为我不想
获取
整个网络?)?然后有一个索引系统来索引和组织我抓取的信息,也是一个搜索引擎?或者Kayak.com如何聚合他们的
数据
?(这是一项旅游聚合服务。)
浏览 2
提问于2009-05-29
得票数 14
1
回答
怎样在不使用远程桌面的情况下就能查看储存在腾讯云服务器上面的文件(不是网盘)?
、
、
、
、
在服务器上部署了
爬虫
,想在不使用远程桌面的情况下直接就能查看服务器硬盘上
爬虫
爬
取到的最新
数据
,想问一下该如何实现?
浏览 345
提问于2020-04-16
2
回答
当列表中的URL较多时,Import.io大容量提取速度会变慢
、
但是,这非常耗时,并且需要在最后拼接回所有
数据
。谢谢,迈克
浏览 0
提问于2015-07-14
得票数 4
1
回答
分布式系统中的任务分配
、
我的
爬虫
使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个
爬虫
产生
数据
卡夫卡。 我的问题是:当一个
爬虫
想要
爬
一个网站,其他
爬虫
不应该尝试爬行它。如何在分布式环境中与它们通信?
浏览 0
提问于2017-06-01
得票数 2
2
回答
python crawler ieee论文关键字
、
、
我试图使用
爬虫
来
获取
ieee论文关键字,但现在我得到一个错误,如何才能修复我的
爬虫
?[0].replace("'", '"').replace(";", '')) 错误就在这里 Traceback (most recent call last): File "G:/github/
爬
蟲crawlers/sup_ieee_keywords.py", line 90, in &
浏览 18
提问于2019-02-19
得票数 1
回答已采纳
2
回答
抓取大型站点,处理超时
、
、
、
、
我希望你能帮助我。我试图抓取一个4500在它包含信息的链接的网站。所以结构是这样的: Tier 2 (Containing different Topics)所以我的脚本在一个循环中打开每个类别-然后一个主题一个主题地打开,并从Tier 3中提取所有信息。但是由于有大约4500个主题,我有一些问题,我有时会有一个超时错误,在这之后我必须从头开始尝试(有时在200个主题之后,另一些时间在2200个主题之后)。我的问题是,我如何才能以正确的方式完成它,这样如果它崩溃了,我可
浏览 0
提问于2013-06-12
得票数 0
回答已采纳
2
回答
仅搜索动态
数据
、
有没有办法让我编程的
爬虫
,使静态按钮,如主页,按钮及其页脚是相同的,每个页面都不包括在
爬虫
中System.out.println(Jsoup.parse(html).body
浏览 3
提问于2013-02-12
得票数 2
回答已采纳
1
回答
在spring boot中通过REST api处理提交的耗时任务的最佳方法
、
、
、
、
我有一个春天启动网络项目,需要与网络
爬虫
系统的工作。我的
爬虫
服务在没有任何停机时间的情况下工作,每个
爬虫
请求可能有很长的处理时间。我想通过一个REST接口
获取
抓取的URL。完成此请求的
爬
网后,我希望更新web表单中的请求状态。实现此场景的最佳方法是什么?
浏览 32
提问于2020-10-22
得票数 1
1
回答
如何安排crawler4j
爬
网控件定期运行?
、
我正在使用crawler4j构建一个简单的网络
爬虫
。我想做的是每10分钟调用一次
爬
网控件。但是,
爬
网控件只
获取
一次
数据
(不是每10分钟
获取
一次
数据
)。有没有更好的方法来安排我的爬行每10分钟执行一次?下面是我在servlet中的代码。
浏览 4
提问于2015-02-21
得票数 0
4
回答
web
爬虫
在对web服务器的重复请求之间等待的最佳持续时间是多少
、
是否存在一些标准的持续时间,
爬虫
必须在重复命中同一服务器之间等待,以避免使服务器负担过重。 如果没有,任何建议是什么可以是一个良好的等待时间
爬虫
被认为是礼貌的。
浏览 0
提问于2009-04-28
得票数 7
4
回答
访问常见的
爬
网AWS公共
数据
集
、
、
、
、
我需要浏览和下载公共
爬虫
公共
数据
集的一个子集。页面提到了
数据
托管的位置。如何浏览和下载托管在s3://aws-publicdatasets/common-crawl/crawl-002/上的常见
爬
网
数据
?
浏览 0
提问于2013-05-20
得票数 6
回答已采纳
1
回答
Nutch API建议
、
、
我正在做一个项目,我需要一个成熟的
爬虫
来做一些工作,我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将
数据
保存到磁盘的
爬虫
程序,并且我需要它能够仅重新
爬
取站点的更新资源,并跳过已经
爬
取的部分。有没有人有在Java中直接使用Nutch代码的经验,而不是通过命令行。我想从简单开始:创建一个
爬虫
(或类似的),最低限度地配置它并启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的资源?
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
1
回答
如何限制来自同一个IP的多个请求?(Centos + APACHE)
、
、
、
我像
数据
库网站一样运行wiki。有些人经常
爬
(刮)我的网站
数据
。所以我想阻止这些
爬虫
。 是否有一个脚本来阻止一定数量的来自同一个IP地址的请求?
浏览 14
提问于2021-12-12
得票数 0
2
回答
当发生某种情况时,python刮伤停止刮伤
、
、
我想从一个网站中提取所有的
数据
。
爬虫
将从具有以下语法的url中抓取所有
数据
:但当一种特殊情况发生时,我不想再
爬
了。在我的代码中,我想在else发生时这样做。
怎么
请?
浏览 7
提问于2014-01-16
得票数 0
回答已采纳
0
回答
基于Python的股票
数据
爬
取?
、
、
、
使用Python语言编写
爬虫
程序,使用正则表达式将指定日期时段内的全部上市公司股票
数据
爬
取下来,并按照股票代码保存到相应的Excel文件中。 有偿联系微信:15527440125
浏览 204
提问于2020-05-23
2
回答
大神有没有研究过美团的_token生成方法?
、
、
如题,我最近在做一个
数据
分析,想要用到美团的美食信息,于是就想用python
爬
取美团的
数据
,但是在构造
爬虫
的时候发现美团有一个_token参数,百思不得其解,还请大神指教
浏览 2250
提问于2018-09-12
1
回答
JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程
、
、
我目前正在构建这个网络
爬虫
来
获取
起始url的所有链接,并从这些链接中
爬
取所有链接,等等。我还注意到,一旦我运行我的
爬虫
,我的互联网开始崩溃,这意味着网站不会加载,直到我打开我的网络
爬虫
。我想我发送了太多的http请求。
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
1
回答
MS Search Server 2010 Express:需要cookie的站点的
爬
网规则问题
、
、
、
、
我正在尝试使用Search Server Express 2010通过管理中心为一个非SharePoint站点创建一个
爬
网规则。如果我尝试指定一个URL来
获取
cookie,我会在IE8中得到以下JS错误。感谢您的帮助,谢谢。
浏览 6
提问于2012-11-13
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Scrapy爬虫获取公开数据
不学爬虫,怎样获取网站数据?
Excel爬虫功能:爬取网站中多页数据
一个爬取近百万数据的爬虫
python爬虫 30行代码爬取500万数据
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券