腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
2
回答
有没有可以下载整个
网站
的网络
爬虫
?
、
需要知道是否有一个
爬虫
/下载器,可以
抓取
和下载和整个
网站
的链接深度至少为4页。我正在尝试下载的站点有
java
script超链接,这些超链接只能由浏览器呈现,因此
爬虫
程序无法
抓取
这些超链接,除非
爬虫
程序自己呈现它们!
浏览 4
提问于2010-09-30
得票数 0
回答已采纳
1
回答
用
Java
开发自动web
爬虫
你好,我想
抓取
多个电子商务
网站
,并获得所有可用的产品被
抓取
和显示在我的
网站
。我已经使用
Java
开发了
爬虫
,但在这方面,我们必须通过提供URL和HTML标记来手动
抓取
网站
,并通过连接URL和解析URL来
抓取
站点,并在相应的HTML标记中获取产品。如果我在我的
网站
上搜索一个产品,那么相应的产品应该自动从电子商务
网站
上爬行。如果我想爬行佳能相机,
爬虫
应该自动完成。 有可能使
爬虫<
浏览 1
提问于2014-01-20
得票数 1
2
回答
Google为我的
网站
显示了错误的标题- robots.txt问题
、
、
我已经建立了这个
网站
以及所有的东西,但是当我在google上输入"lissa mariage“时,它显示了这从罗马尼亚翻译过来的意思:"pages_rss_title”。
浏览 0
提问于2015-12-17
得票数 4
1
回答
网络
爬虫
会遇到什么危险?
我刚写完一个
爬虫
,一直在想为什么爬行某个
网站
会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此,我的问题是,web
爬虫
(用PHP或
Java
编写)是否能够刮起可能会对
爬虫
造成损害的站点?
浏览 3
提问于2014-11-08
得票数 1
2
回答
我需要为特定的用户代理编写一个网络
爬虫
、
我需要编写一个网络
爬虫
,并希望能够爬行使用一个已知的用户代理。例如,我希望我的
爬虫
程序充当iphone来
抓取
网站
的移动站点,然后使用Mozilla PC代理再次
抓取
,等等。这样,我将能够
抓取
每一个“类型”的
网站
(移动和个人电脑)。然而,我也希望能够设置我的
爬虫
的用户代理,这样
网站
管理员也可以在他们的统计数据中看到访问整个
网站
的是一个
爬虫
,而不是真正的用户。所以我的问题是,你们知道如何在PHP中同时设
浏览 1
提问于2011-05-14
得票数 3
回答已采纳
2
回答
使用Web Crawler爬行Web数据
、
我想使用一个网络
爬虫
和
抓取
一个特定的
网站
。该
网站
是一个学习管理系统,许多学生在这里上传他们的作业,项目演示文稿等。我的问题是,我可以使用网络
爬虫
下载已经上传到学习管理系统中的文件吗?
爬虫
能做到这点吗?我知道webeater (用
Java
编写的Crawler )
浏览 1
提问于2011-03-30
得票数 1
回答已采纳
2
回答
使用javascript导入外部页面
、
、
我想做一个
java
脚本
爬虫
,从php服务器获得一个分配,然后索引页面。但是我想
抓取
的
网站
是外部的,我不能用javascript访问它们,有没有人有其他赋值语言或javascript的解决方案。我想过在加载新站点时使用greasemonkey
抓取
页面。
浏览 1
提问于2012-03-06
得票数 0
2
回答
使用单个Web
爬虫
以预定义的格式
抓取
多个带有附件的
网站
?
、
、
52个
网站
,这导致大约。150个我需要
抓取
的网页。基于我的无知和缺乏研究,我开始构建每个网页的
爬虫
,这开始变得难以完成和维护。根据我到目前为止的分析,我已经知道我想在每个网页上
抓取
什么信息,很明显,这些
网站
都有自己的结构。在积极的一面,我注意到每个
网站
的网页在其
网站
结构中都有一些共性。我的百万美元的问题,有没有一个单一的技术或单一的网络
爬虫
,我可以用来
抓取
这些
网站
?我已经知道我想要的信息,这些
网站
很
浏览 3
提问于2019-04-29
得票数 0
2
回答
在GUI中显示另一个线程的状态
、
我有一个GUI,GUI正在启动另一个线程(
Java
)。此线程正在启动一个正在爬行许多
网站
的类。现在,我想在GUI中显示
抓取
了多少
网站
以及还剩下多少
网站
。我想知道对此最好的解决方案是什么。第一个想法是在GUI中启动一个计时器,并定期询问
爬虫
还剩下多少。但我想这是很脏的..。 然后,可以将GUI传递给
爬虫
程序,并且每当准备好的
网站
数量发生变化时,
爬虫
程序都会调用GUI方法。
浏览 0
提问于2013-07-12
得票数 0
回答已采纳
5
回答
价格比较
网站
-它们是如何工作的?
、
、
我想知道是否有人可以向我解释一下价格比较
网站
是如何工作的?我的意思是,如果它像我想的那样工作(下面解释),那么我有一个非常好的项目可以为自己工作,从长远来看,应该会赚很多钱。所以我认为它的工作原理是每个供应商提供一个RSS提要,比较
网站
连接到这个RSS提要。每种产品都有自己的唯一代码(由制造商提供),这些代码在RSS提要的标准标记中提供。比较
网站
收集关于谁提供哪种产品的数据,并比较确实提供特定产品的数据。出售图书的比较
网站
可以按流派、作者等过滤这些图书,并使用xsl样式表( RSS提要以XML格式提供)显示它们想要的内容。
浏览 2
提问于2010-08-03
得票数 3
回答已采纳
2
回答
web爬行工具,支持在开始爬行之前与目标站点进行交互
、
我正在寻找一个
爬虫
,它能够处理与Ajax的页面,并能够在开始爬行
网站
之前与目标
网站
执行某些用户交互(例如,点击某些菜单项,填写一些表格等).I尝试webdriver/selenium (这是真正的网络
抓取
工具),现在我想知道是否有任何
爬虫
程序,支持模拟某些用户交互之前开始爬行?(用
Java
、Python或Ruby ...)如果是,我很感谢任何描述这一点的链接。
浏览 1
提问于2011-06-28
得票数 0
6
回答
爬虫
vs刮板
、
、
有人能在范围和功能方面区分
爬虫
和刮板吗?
浏览 0
提问于2010-07-09
得票数 71
回答已采纳
2
回答
有没有办法在python中
抓取
网页,让
爬虫
只
抓取
新的链接。
、
、
我想
抓取
一个网页(新闻),只获得最新的链接。我有一个
爬虫
代码,从一个
网站
获得所有的链接,需要2-3个小时来获得大约30000个链接,并在数据库中存储。如果下次运行
爬虫
程序时,我只想插入新的链接,该怎么办?我知道我可以在插入数据库之前做一个过滤器,但我希望
爬虫
只
抓取
新的链接,而不是再次
抓取
旧链接(基本上是整个
网站
)。有没有可能做这样的事情?
浏览 1
提问于2018-04-18
得票数 0
1
回答
将Nutch web爬行功能集成到
Java
应用程序中
、
、
我会在我的
Java
应用程序中使用Apache从一个或多个
网站
抓取
网页。基本上,为了处理页面内容(文本等),我需要为web
爬虫
找到的每个网页调用我的
Java
应用程序的方法。如何做到这一点?
浏览 7
提问于2016-06-01
得票数 2
回答已采纳
2
回答
WebCrawling用户验证的
网站
、
、
可以使用c#
抓取
用户认证的
网站
吗?
浏览 1
提问于2010-07-31
得票数 1
1
回答
使用X509爬行某些urls时的StormCrawler证书异常
、
、
、
、
我一直在使用StormCrawler来
抓取
网站
。作为https协议,我在StormCrawler中设置了默认的https协议。然而,当我
抓取
一些
网站
时,我收到以下例外情况:at
java
.security.cert.CertPathBuilder.build(CertPathBuilder.
java
:280)
浏览 1
提问于2018-03-21
得票数 2
回答已采纳
3
回答
如何重定向特定IP地址
、
、
、
比如说javascript,
爬虫
的IP地址,以及
爬虫
的引用url,这是可能的吗?
浏览 0
提问于2013-12-13
得票数 0
2
回答
简单的网络
爬虫
速度问题
、
我用PHP创建了一个非常简单的网络
爬虫
,用来
抓取
一些足球
网站
的比赛结果。$doc = new DOMDocument(); $doc->loadHTMLFile("http://resultater.dai-sport.dk/tms/Turneri
浏览 2
提问于2015-04-20
得票数 3
1
回答
抓取
抓取
整个
网站
的
爬虫
、
、
我正在使用scrapy
抓取
我拥有的旧
网站
,我使用下面的代码作为我的蜘蛛。我不介意为每个网页输出文件,或者一个包含所有内容的数据库。但是我确实需要能够让蜘蛛
抓取
整个东西,而不是我必须放入我当前必须做的每个单独的url。
浏览 1
提问于2016-04-25
得票数 15
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫抓取纯静态网站及其资源
Python 爬虫抓取纯静态网站及其资源
Python爬虫学习:抓取电影网站内容的爬虫
scrapy爬虫实战-国外soybase网站跨页面抓取
Java爬虫在网络数据抓取方面有什么优势和不足
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券