腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何使用selenium和JAVA/C#保存网页DOM的副本
、
、
、
、
我需要写一个
爬虫
,爬行整个
练习
在我的
网站
上可用(1200
练习
),并保存在我的本地DOM副本,因为我必须使用DOM创建一个
练习
DVD。有谁能建议一下怎么做吗?📷
浏览 0
提问于2016-11-16
得票数 3
1
回答
为什么我的Crawler会得到错误的HTML代码?
、
我想用java写一个
爬虫
来做一些学校
练习
。实际上,用jsoup库实现的
爬虫
代码可以工作,因为我的请求的结果是一些HTML代码,但是当我搜索一个明确写在
网站
上的单词时,没有找到它,因为一些div的来自于空的
爬虫
。然后我意识到,当您导航到
网站
并右键单击‘查看页面源’时,我得到了与相同的代码。当我将代码与进行比较时,右键单击“->”检查“”时,代码与“查看页面源”中的不同。
浏览 0
提问于2019-09-12
得票数 1
回答已采纳
1
回答
最好的
爬虫
确定与技术建设?
如果我们知道某个网页的某些签名显示了一种技术是用于一个
网站
,什么是最好的方式来识别尽可能多的这些
网站
?我们预计有1000个
网站
,我们感兴趣的是那些排名前一千万的
网站
。(我们不认为最大的
网站
使用这种技术。) 我有一个开源网络
爬虫
列表-- --但是我的用例似乎与
爬虫
的许多常规标准不同,因为我们只想保存带有这个签名的域的“点击”。所以我们不需要太快,但我们确实需要检查所有的网页,直到找到一个命中,只使用负责任的爬行
练习
,等等。什么是最好的?或者不是调整<e
浏览 2
提问于2017-03-28
得票数 3
回答已采纳
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
21
回答
围棋
练习
#10之旅:
爬虫
是一个
练习
,它要求读者对网络
爬虫
进行并行化(并使其不包含重复,但我还没有做到这一点)。
浏览 6
提问于2012-11-04
得票数 23
回答已采纳
1
回答
Nutch与Heritrix的比较
、
、
我想选择上面的其中之一,为特定的
网站
建立一个爬行框架。这不是互联网范围内的抓取。我不是建立一个搜索索引,而是有兴趣从
网站
上抓取特定的页面。 有没有人能详细介绍一下上述的利弊?谢谢Nayn
浏览 1
提问于2010-07-16
得票数 2
回答已采纳
3
回答
网络
爬虫
的更新间隔是多少?
、
我目前正在做我自己的网络
爬虫
,我想知道…你应该每天重温一次吗?每小时一次?我真的不know...has任何人在这件事上的一些经验?
浏览 0
提问于2010-07-10
得票数 1
回答已采纳
1
回答
网络
爬虫
会遇到什么危险?
我刚写完一个
爬虫
,一直在想为什么爬行某个
网站
会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此,我的问题是,web
爬虫
(用PHP或Java编写)是否能够刮起可能会对
爬虫
造成损害的站点?
浏览 3
提问于2014-11-08
得票数 1
1
回答
Google运行代理IP
、
、
、
我的用例是托管一个,它解析多个启用地理封锁的
网站
。例如,我的应用程序需要爬行
网站
A,它只允许来自亚洲国家的流量,另一个
网站
B只允许来自美国的流量。
浏览 13
提问于2022-01-19
得票数 0
1
回答
Golang旅游网络
爬虫
练习
、
、
、
、
最后一个
练习
(文本在这里)要求您爬行一组具有链接的网页的图形,使用goroutines、通道和锁定原语以并发的方式进行操作,而不需要两次访问同一个页面。在真正的Web
爬虫
中,当超时发生时,我可以预期会采取一些行动,但在这种非常有限的情况下,也许我可以使用一些更健壮的解决方案。有什么想法吗?这是我的解决方案(在Go游乐场这里中可以获得)--我已经编写了从Fetch结构到Crawl函数的代码,其余的代码已经通过
练习
提供了): "fmt"
浏览 0
提问于2016-04-25
得票数 5
回答已采纳
2
回答
搜索引擎robot.txt
、
我想添加一个robot.txt,这样我的网页就能被找到.
浏览 5
提问于2011-06-15
得票数 0
回答已采纳
1
回答
如何从
网站
的数据库中抓取链接?
、
、
我想写一个简单的
爬虫
爬虫
如何知道一个新的链接已经添加到该
网站
?例如,如果一个新闻
网站
发布了一篇新文章,而我希望我的
爬虫
立即解析链接,那么
爬虫
如何知道这一点(googlenews也能够做it...so .?)也就是说,<e
浏览 4
提问于2014-06-06
得票数 3
回答已采纳
2
回答
哪种开源
爬虫
是最好的?
、
我想有一些可扩展的
爬虫
,可以抓取一个
网站
的列表,如果需要可以修改。
浏览 1
提问于2011-12-07
得票数 5
1
回答
为什么我的
网站
没有出现在谷歌搜索结果中?
、
、
、
我已经为一个朋友的面包店做了一个简单的
网站
,它没有出现在谷歌的搜索结果,即使我搜索整个域名的
网站
。怎么才能让它看起来? (现场)
浏览 0
提问于2014-06-12
得票数 0
3
回答
爬虫
如何确保最大的覆盖率?
、
、
根据他们的说法,网络
爬虫
只使用其他网页检索到的URL,并通过树(实际上是网格) 在这种情况下,
爬虫
如何确保最大的覆盖率。显然,可能有很多
网站
没有来自其他页面/
网站
的推荐链接。
浏览 9
提问于2009-06-04
得票数 4
回答已采纳
2
回答
Google为我的
网站
显示了错误的标题- robots.txt问题
、
、
我已经建立了这个
网站
以及所有的东西,但是当我在google上输入"lissa mariage“时,它显示了这从罗马尼亚翻译过来的意思:"pages_rss_title”。
浏览 0
提问于2015-12-17
得票数 4
1
回答
"web
爬虫
“、"web刮刀”、"DOM分析器“和"DOM解析器”的区别是什么?
、
"web
爬虫
“、"web刮刀”、"DOM分析器“和"DOM解析器”有什么区别?
浏览 6
提问于2022-10-31
得票数 0
1
回答
我应该启用cloudflare
爬虫
提示与Yoast SEO?
、
、
、
我有一个WordPress
网站
,我想有更多的流量。我已经在WordPress中安装了Yoast。我是否也应该启用CloudFlare
爬虫
提示,这会导致安全问题吗?我看到必应搜索控制台也推广它。
浏览 0
提问于2023-02-06
得票数 0
3
回答
更新sitemap.xml有什么好处?
、
、
与
爬虫
做他们的工作相比,这样做有什么好处呢?
网站
地图是一个简单的方式,让
网站
管理员告知搜索引擎的网页,在他们的
网站
上,可供爬行。目前,我们的系统还没有动态地提供站点地图,所以我们必须用
爬虫
创建一个站点地图,这不是一个很好的过程。
浏览 1
提问于2009-08-28
得票数 0
回答已采纳
1
回答
Facebook Linter / Open Graph截取URL路径
、
、
、
、
我一直在网上和StackOverflow上寻找答案,但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它,它可以提取所有内容,特别是og:url元标记。当我抓取正常的内容页面时,问题就开始了。尽管我已经三次检查了我的标记格式是否正确,但FB Linter将URI从URL中删除,因此它报告og:url标记只有域名electionstats.com/!页面上实际存在的og:url标记如下所示: 我怀疑这是FB缓存页面的问题,因为在我的About页面上,我进行了快速代码更改,更
浏览 3
提问于2011-10-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫练习-豆瓣读书
Python练习-简单爬虫
爬虫练习-百度新闻
爬虫练习_使用scrapy爬取淘宝
Python爬虫-适用新手(三)-动态页面实战练习
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券