腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
C#
中
任何好的开源网络爬行
框架
、
、
、
我已经决定在C#
中
构建
爬虫
。我对HttpWebRequest/HttpWebResponse类有很多不好的体验,众所周知,它们对于大型
爬虫
来说是高度错误和不稳定的。即使在
框架
4.0
中
,它们也是有缺陷的。 我是根据自己的亲身经历说的。如果他们知道有什么好的开源
爬虫
框架
,比如
java
有nutch和apache commons,它们是非常稳定和高度健壮的库,我想要这里的专家们的意见,他们已经编码
爬虫
程序。如果C#
中</em
浏览 2
提问于2010-12-06
得票数 9
回答已采纳
2
回答
使用
Java
的web索引器
、
、
、
当用
Java
开发时,并行系统和分布式系统哪个更适合网站
爬虫
和web索引器?可用的
框架
有哪些?
浏览 3
提问于2010-08-01
得票数 2
回答已采纳
1
回答
twitter好友爬行器
、
是否有可能根据友谊信息为twitter编写一个
爬虫
? 我环顾四周,但至今没有发现任何有用的东西。谢谢莱拉
浏览 1
提问于2011-03-17
得票数 0
2
回答
最适合用于图像爬行的开源、可扩展
爬虫
、
我们正处于一个项目的开始阶段,我们目前想知道哪个
爬虫
是我们最好的选择。基本上,我们要建立Hadoop和抓取网络上的图像。然后,我们将根据Hadoop
中
的Map/Reduce工具,在HDFS
中
存储的图像上运行我们自己的索引软件。除了我们自己的索引之外,我们不会使用其他索引。哪种
爬虫
最适合抓取图像?哪种
爬虫
最适合分布式爬行系统,在这种系统
中
我们使用多台服务器一起进行爬行?Nutch:众所周知的规模。我想使用它,因
浏览 5
提问于2009-07-28
得票数 3
2
回答
滚动您自己的web
爬虫
来抓取一个有多个条目的特定网站。
、
什么样的语言能够处理编写自己的网页
爬虫
?但是如果我需要的话,我想有一个很好的理由去学习一门新的语言。
浏览 0
提问于2011-08-02
得票数 0
回答已采纳
1
回答
获取用于制作web
爬虫
的页面的完整html源代码。
、
、
我试图在
java
中
制作一个web
爬虫
,它接受网页的URL,并导航到给定网页的源代码
中
存在的其他页面。问题是,我正在获得HTML的源代码,它包含各种标记,如
框架
和一些javascript文件名。现在,要导航到其他页面,我需要访问
框架
和javascript文件中提供的http链接。我应该如何在列表
中
得到这些链接。
浏览 0
提问于2015-10-14
得票数 0
回答已采纳
1
回答
基于Hadoop MapReduce的Web
Java
爬虫
、
、
、
我想使用MapReduce架构实现一个基于Hadoop
框架
的
java
爬虫
,并在HBase
中
插入内容。我试着把这两个教程结合起来: 但是我不能理解这个概念。从页面中提取链接的逻辑放在哪里?
浏览 22
提问于2017-12-19
得票数 1
回答已采纳
3
回答
有没有
java
script web
爬虫
框架
?
、
有没有JavaScript网络
爬虫
框架
?
浏览 0
提问于2011-04-06
得票数 13
2
回答
基于PHP的Web
爬虫
或基于
JAVA
的Web
爬虫
、
、
我对基于PHP的网络
爬虫
有些怀疑,它能像基于
java
线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在
java
中
,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于
Java
的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
如何提取我的
爬虫
目前所站的网址?
、
、
我正在使用python
中
的scrapy
框架
制作一个web
爬虫
。其主要思想是,
爬虫
从页面中提取一些数据,如果数据符合某些条件,
爬虫
应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL?
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
1
回答
用于抓取webservices服务的Nutch或其他
框架
、
、
、
、
我正在寻找一个
框架
,我可以用于以下情况:我有2个网络服务。我调用第一个具有json响应的服务。在json响应
中
,我有一些it,用于调用其他服务,然后合并服务响应并将其存储在db
中
。我找到的是Nutch,但它看起来像是一个主要处理html页面的网络
爬虫
。有没有什么
框架
可以让我在上面的场景中使用?我正在寻找一个容错的、可销售的
java
框架
。 谢谢!
浏览 4
提问于2015-10-29
得票数 0
1
回答
Scrapy:如何从crawler获取处理过的流水线项目?
、
爬虫
是一个更大的
框架
的一部分,它需要
爬虫
返回一个解析的项目列表。 在Scrapy
中
,我实现了一个包含几个规范化步骤的管道。由于Scrapy是更大的
框架
的一部分-如果我可以在通过整个管道后将项目返回到
爬虫
和/或
框架
,那就太好了。有没有办法做到这一点?
浏览 0
提问于2013-12-05
得票数 0
2
回答
以XML格式保存网页的工具
、
、
、
还要注意,我应该将每种药物保存在XML格式的元素
中
(使用特定的模式)。现在我正在寻找一个工具来帮助这个任务。这样的工具是否存在?获取HTML页面(S)并创建XML文档。
浏览 0
提问于2015-01-06
得票数 4
回答已采纳
2
回答
每个线程有一个数据库连接?
、
、
、
、
我制作了一个网络
爬虫
,每个线程不断地插入页面和链接。我必须为每个线程建立一个数据库连接,还是与它们共享一个连接?
浏览 0
提问于2011-05-18
得票数 1
回答已采纳
2
回答
抓取Facebook粉丝页面
、
我想cral一个facebook的粉丝页面,以获得所有的成员谁是该页面的球迷的详细信息。我在face book API中有任何可以帮助我的函数。或者有没有其他方法可以让我这么做?
浏览 0
提问于2009-12-16
得票数 0
回答已采纳
1
回答
年龄验证页面阻塞网站-需要允许谷歌呢?
、
、
、
为了实现这一功能,我只需将所有通信量重定向到一个验证页面,在该页面
中
,他们可以设置一个新的会话,表示他们已经(在这次访问
中
)同意了这些条款。一旦设置了会话,站点就可以完全访问。
浏览 2
提问于2014-08-02
得票数 0
回答已采纳
1
回答
JS
中
的
爬虫
框架
、
、
我正在寻找一个网络
框架
/蜘蛛,可以爬行一个不规则的网站(一个网站没有一个容易定义的页面结构,例如使用url
中
的标题字符串索引),并搜索关键字。可以很容易地定制,并且可以很容易地在JS (最好是)或C#
中
编写附加功能的东西 我是网络
爬虫
行业的新手,所以只要给我一个
框架
,我会很高兴自己去读它。谢谢:)
浏览 0
提问于2015-02-16
得票数 0
1
回答
如何防止刮伤从伐木?
、
、
我正在从一个更大的
框架
中
调用一个基于Scrapy的
爬虫
。在爬行过程
中
,Scrapy记录所有事件。抓取之后,抓取应该停止日志记录,调用
框架
应该接管日志记录任务,并再次打印出来。如何阻止Scrapy 控制所有日志并将其传递回我的
框架
?更新:我将crawler.spider.settings.overrides['LOG_ENABLED'] = False添加到我的
爬虫
中
。刮痕一直
浏览 2
提问于2013-12-10
得票数 1
1
回答
如何使用ASP核心运行
爬虫
、服务交互和生命周期问题
、
、
我用ASP Core3.1应用程序开发了一个网络
爬虫
。按照我在Internet上收集到的良好实践,我拆分了Downloader,负责请求网页并将其存储到数据库
中
,以及网页合并服务,负责获取原始HTML网页并将其合并为有用的数据。下载器和网页合并服务都作为Singleton注册到服务容器
中
。其根本原因是,尽管应用程序作为一个整体被设计为一个API (用于启动
爬虫
、停止它、获取一些爬行数据),但这些服务在后台运行的时间比API请求甚至会话长得多。我知道Singleton模式会导致问题,但是我没有更好的方法来运行这个
爬虫
浏览 3
提问于2020-03-03
得票数 0
回答已采纳
1
回答
如何对Google机器人和其他机器人隐藏某些DIV
、
因此,我有一个网站,它要求用户在查看任何信息之前验证其年龄,如果您使用DIV,我会显示选项以选择18岁以上: <div class="contenido-edad"> <div class="container">
浏览 0
提问于2015-12-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java爬虫框架WebMagic的使用总结
Python中爬虫框架或模块的区别
Java中框架讲解(1)——Java中三大主流框架之Spring概述
java中任务的分而治之框架ForkJoin
高级爬虫:Scrapy爬虫框架初探
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券