腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
Web
爬虫
-如何构建访问的url集?
、
、
、
、
我已经在rabbitMQ上实现了一个
分布式
网络
爬虫
。除了访问的url集之外,一切几乎都完成了。我希望在不同的
爬虫
之间有某种共享的变量。在
分布式
环境中存储、访问和共享访问过的urls列表的最佳方法是什么?
浏览 6
提问于2017-04-29
得票数 0
1
回答
无假阳性的成员资格检查的内存高效结构
、
任务本身是一个高规模的web
爬虫
,所以我需要跟踪已经访问过的urls(或者这个urls的sha1散列)。谢谢!
浏览 0
提问于2015-10-28
得票数 0
回答已采纳
1
回答
连接到多个TOR出口节点
、
我想开发一个使用TOR的
分布式
网络
爬虫
。我如何通过TOR实现20种不同的连接?我想用20个外部ips同时浏览网站。请用Python编写代码示例。
浏览 1
提问于2012-08-23
得票数 2
回答已采纳
1
回答
在HBase 0.90.6中推荐哪种Hadoop版本?
、
、
、
我没有其他选择,除了安装HBase 0.90.6,因为它只是推荐的稳定版本的纳奇(
网络
爬虫
),除了0.90.4。我的问题是,在HBase 0.90.6中推荐哪一个Hadoop版本才能在伪
分布式
模式下工作?
浏览 0
提问于2013-10-06
得票数 0
回答已采纳
1
回答
有一个流行的工具来抓取
网络
数据吗?
、
我正在做信息提取的工作,我需要一个工具从网页上抓取数据,windows中有流行的工具吗?
浏览 7
提问于2009-12-14
得票数 0
1
回答
分布式
爬行与速率限制/流量控制
、
、
、
、
我正在运行一个利基搜索产品,与
网络
爬虫
工作。当前的
爬虫
是一个单独的(PHP Laravel)工作人员,它爬行urls并将结果放入一个弹性搜索引擎。系统连续地以X毫秒的间隔对找到的url进行重新爬行。这为我提供了很好的服务,但随着一些新的大客户的到来,
爬虫
将达到极限。我需要重新设计一个
分布式
爬虫
系统,以加快爬行速度。问题是下面的规范组合。
浏览 1
提问于2018-07-23
得票数 1
1
回答
用Java在
分布式
体系结构上实现Web
爬虫
、
、
、
朋友们,我用Java实现了一个多线程的
网络
爬虫
。为了使它更高效,我想将其转换为
分布式
架构,即在3台机器上。据我所知,主从架构是最好的。
浏览 0
提问于2013-02-26
得票数 0
2
回答
爬虫
存储系统所需的建议
、
、
、
我计划用c++编写一个
网络
爬虫
,它每天爬行N个页面。主要的问题是我把存储系统搞糊涂了。所以我需要一个高效的
分布式
数据库来存储我抓取的数据。有没有人能给我推荐一个符合条件的db?
浏览 0
提问于2011-03-20
得票数 1
5
回答
如何使用Apache Nutch保存原始html文件
、
、
我是搜索引擎和
网络
爬虫
的新手。现在,我希望将特定网站中的所有原始页面存储为html文件,但使用Apache Nutch只能获得二进制数据库文件。如何使用Nutch获取原始html文件?(支持
分布式
爬行的工具更好。)
浏览 2
提问于2012-04-04
得票数 5
回答已采纳
3
回答
在一个接口上而不是在另一个接口上实现大型帧
、
我有一个
分布式
应用程序,它在多台机器之间传递大量通信量。目前,这些机器与机架上的其他机器共享一个千兆位
网络
,我开始看到问题(数据包冲突)。我为
分布式
应用程序使用的服务器(它是一种web
爬虫
)也需要访问Internet,而我所读到的关于巨型框架的所有内容都警告说,要使其正常工作,每个连接到
网络
上的设备都必须支持大型框架。我是否可以为
分布式
应用程序建立一个专用
网络
,确保所有机器的第一张网卡都设置为巨型帧,并使用这些机器上的第二张卡(关闭了巨型帧)连接到我
网络</em
浏览 0
提问于2010-09-10
得票数 0
回答已采纳
1
回答
提高卷筒纸刮刀效率
、
、
、
我正在创建一个java应用程序来从一个特定的XXX网站抓取数据,我想将所需的一组数据存储到我的MSSQL数据库中。dataset位于MSSQL中的100000+行附近。我想知道的是,我如何提高我的应用程序的效率,以便我可以在更短的时间内抓取和保存它。我有用于并行执行我的流程的executor服务。
浏览 2
提问于2018-12-11
得票数 0
2
回答
最适合用于图像爬行的开源、可扩展
爬虫
、
我们正处于一个项目的开始阶段,我们目前想知道哪个
爬虫
是我们最好的选择。基本上,我们要建立Hadoop和抓取
网络
上的图像。一些特殊问题:现在这些看起来是最好的三种选择-摘要: 我们需要从
网络
上获取
浏览 5
提问于2009-07-28
得票数 3
1
回答
分布式
系统中的任务分配
、
我的
爬虫
使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个
爬虫
产生数据卡夫卡。 我的问题是:当一个
爬虫
想要爬一个网站,其他
爬虫
不应该尝试爬行它。如何在
分布式
环境中与它们通信?
浏览 0
提问于2017-06-01
得票数 2
1
回答
RabbitMQ - Basic_qos函数及其最大化
、
、
、
、
我一直在使用RabbitMQ构建一个
分布式
网络
爬虫
。到目前为止,我一直在使用这个函数,这样每个函数一次只能得到一个请求。
浏览 1
提问于2017-04-27
得票数 2
回答已采纳
4
回答
在抓取网站时超过请求限制
、
我正在做一个
网络
爬虫
,索引那些不想被索引的网站。我没主意了。我怎样才能通过他们因为我的重复请求而阻止我。
浏览 7
提问于2011-12-12
得票数 10
回答已采纳
1
回答
你如何确保它确实与谷歌云酒吧/潜艇一起工作?
、
、
我目前正在做一个
分布式
爬行服务。在做这件事的时候,我有一些需要解决的问题。
爬虫
需要保存每个特定站点上的每个公告板上的所有帖子。此外,对于
分布式
爬虫
的稳定实现,我是否可以参考pub/sub或其他好功能?
浏览 3
提问于2022-03-23
得票数 0
2
回答
使用Java的web索引器
、
、
、
当用Java开发时,并行系统和
分布式
系统哪个更适合网站
爬虫
和web索引器?可用的框架有哪些?
浏览 3
提问于2010-08-01
得票数 2
回答已采纳
1
回答
如何将ApacheNutch2.x连接到远程HBase集群?
、
、
、
、
一台机器在伪
分布式
模式下运行HBase 0.92.2,另一台使用Nutch2.x
爬虫
.我如何配置这两台机器,使一台具有HBase-0.92.2的机器充当后端存储,另一台使用Nutch-2.x充当
爬虫
?
浏览 1
提问于2014-03-27
得票数 1
回答已采纳
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对
网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
如何顺利地重启scrapy-redis蜘蛛?
、
、
我用scrapy-redis写了一个简单的
爬虫
来制作
分布式
蜘蛛。当我启动两只蜘蛛,然后把它们都杀死时,我发现了这点。redis队列只留下了‘dupfilter’队列。当我重新启动这两个
爬虫
时,它们根本不起作用。那么,如果蜘蛛意外死亡或崩溃,如何重新启动它们呢?
浏览 0
提问于2016-05-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
分布式爬虫原理之分布式爬虫原理
整合Akka实现分布式爬虫
Python分布式爬虫详解(一)
分布式爬虫的部署之Gerapy分布式管理
分布式爬虫的部署之Scrapyd分布式部署
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券