腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
谷歌
爬虫
会错过页脚内容,如果我们实现无限懒惰加载我们的产品在我们的目录页在我们的电子商务网站?
、
、
我们的SEO专家建议,我们不做懒惰加载和
分页
,因为他们说,谷歌
爬虫
将无法
抓取
页脚内容,如果我们实现我们的产品在目录页无限懒惰加载。这是真的吗?
浏览 0
提问于2018-09-27
得票数 1
2
回答
抓取
图像、整个Web页面并缓存它们
我想
抓取
一些图像和他们的网页。我需要将
抓取
结果保存在本地磁盘中以供进一步分析。我想知道这个问题有没有开源的?
浏览 0
提问于2010-06-16
得票数 0
2
回答
有没有可以下载整个网站的网络
爬虫
?
、
需要知道是否有一个
爬虫
/下载器,可以
抓取
和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有
java
script超链接,这些超链接只能由浏览器呈现,因此
爬虫
程序无法
抓取
这些超链接,除非
爬虫
程序自己呈现它们!
浏览 4
提问于2010-09-30
得票数 0
回答已采纳
2
回答
如何
抓取
整个网站,如果滚动后的数据附加了Javascript
我需要
抓取
一个网站,但问题是,在底部没有链接的
分页
。如果滚动到底部,则会追加数据。现在,我怎样才能用我的
爬虫
做到这一点呢?有什么想法吗?
浏览 0
提问于2013-02-05
得票数 0
1
回答
百度蜘蛛会理解无限滚动的页面吗?
、
、
、
page=4 似乎完全有可能使无休止的
分页
,SEO友好,只要您的每个页面是分开寻址使用rel="next"/"prev"和HTML5历史API是用来警告DOM时,一个新的页面被加载。因此,我的问题是:百度的
爬虫
(百度的
爬虫
)是否足够聪明,能够理解无止境的JavaScript
分页
,就像谷歌的机器人显然能做到的那样?
浏览 0
提问于2015-12-03
得票数 2
回答已采纳
1
回答
使用导入IO搜索数据
、
、
如何在importIO中的
爬虫
中使用crawler?我需要
抓取
一个公司的详细信息,以及每个公司的“所有”评论。
浏览 0
提问于2014-10-06
得票数 0
2
回答
Nutch - Crawler在
分页
内容中不跟随下一页
、
、
我使用nutch 1.6
抓取
一个包含20个产品/页面的
分页
网页,命令如下: .但是
爬虫
没有跟踪我的下一页链接吗?我是否遗漏了一个参数?
浏览 1
提问于2013-05-24
得票数 0
1
回答
关于无限滚动和SEO的几个问题
、
、
我有一页有很多中等大小的图片(目前是100‘S),我正在考虑为用户实现无限滚动,并与链接prev/next结合使用
分页
,因此SEO仍然会选择后面的图像(这将被js隐藏在文档加载中)我知道还有其他问题,但我有一些问题还没有得到回答: 对于使用onload隐藏
分页
,如果我使用display:none代替
分页
,SEO是否仍然会捡起它,或者当onload事件发生时,我应该通过js将显示更改为none?如果我实现
分页
为www.domain.com/content?page=1,...page=2等,SEO会拿起G
浏览 0
提问于2014-01-25
得票数 1
回答已采纳
1
回答
用于
爬虫
应用的数据库系统
、
我在一个基于
java
的
爬虫
上工作。我想在我的
爬虫
恢复功能,用户可以在任何时候暂停
爬虫
,在他想要的情况下,
爬虫
崩溃的情况下,他应该能够开始从
爬虫
停止的点上一次爬行。
浏览 2
提问于2012-01-06
得票数 1
回答已采纳
1
回答
用
Java
开发自动web
爬虫
你好,我想
抓取
多个电子商务网站,并获得所有可用的产品被
抓取
和显示在我的网站。我已经使用
Java
开发了
爬虫
,但在这方面,我们必须通过提供URL和HTML标记来手动
抓取
网站,并通过连接URL和解析URL来
抓取
站点,并在相应的HTML标记中获取产品。如果我想爬行佳能相机,
爬虫
应该自动完成。 有可能使
爬虫
自动化吗?如果是,请帮助我做这件事。
浏览 1
提问于2014-01-20
得票数 1
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
4
回答
Java
-销毁正在执行某些操作的对象
、
我看过
Java
中关于析构函数的帖子,了解到
Java
没有析构函数,但我很困惑,如果没有析构函数,我的应用程序需要做什么。 我的应用程序允许用户创建一系列的网络
爬虫
,这些
爬虫
保存在一个数组列表中。每个crawler都有一个进度面板gui,显示已爬行的页面等,并允许用户暂停该
爬虫
。但是,用户可能还想“终止”该
爬虫
程序。我需要做什么才能让用户按下"Terminate“,对于那个爬行器,它的
抓取
器,以及
抓取
器的DatabaseConnection,都被
浏览 4
提问于2011-07-08
得票数 0
回答已采纳
1
回答
使用javascript URL数组的网络
爬虫
?
、
、
我让用户输入他们想要
抓取
最新更新的URL列表。我对
Java
很熟悉,所以我试着用
Java
做一个网络
爬虫
,但我不太明白如何把这个数组从javascript转换成
Java
。为了能够
抓取
数组中的每个URL,最兼容的语言是什么?
浏览 3
提问于2016-01-17
得票数 0
1
回答
使用
java
抓取
纬编的IFrame内容
、
、
、
我想
抓取
网页的IFrame内容(动态内容);是否有人曾尝试过这种方法/是否有任何新的解决方案来
抓取
动态内容,如IFrame?
浏览 3
提问于2014-12-09
得票数 1
5
回答
C#中的网页爬行
、
我的任务是
抓取
/解析和索引许多图书馆网页上的可用书籍。我通常使用HTML Agility Pack和C#来解析网站内容。其中之一如下所示: 我发现典型的网络
爬虫
在这个网站上失败了。我还尝试编写自己的
爬虫
程序,它将遍历页面上的所有链接,并生成post/get变量以动态生成结果。我也不能做到这一点,主要是因为我得到了大约404个错误(尽管我确定生成的链接是正确的)。
浏览 1
提问于2010-12-22
得票数 3
回答已采纳
5
回答
C#中任何好的开源网络爬行框架
、
、
、
我已经决定在C#中构建
爬虫
。我对HttpWebRequest/HttpWebResponse类有很多不好的体验,众所周知,它们对于大型
爬虫
来说是高度错误和不稳定的。如果他们知道有什么好的开源
爬虫
框架,比如
java
有nutch和apache commons,它们是非常稳定和高度健壮的库,我想要这里的专家们的意见,他们已经编码
爬虫
程序。编辑:我必须
抓取
的一些网站使用非常复杂的
Java
Script呈现页面,现在这增加了我的网络
爬虫
的复杂性,因为我
浏览 2
提问于2010-12-06
得票数 9
回答已采纳
1
回答
robots.txt爬行延迟也适用于子页面吗?
、
、
我为某个网页写了一个
爬虫
。这个网页有一个robots.txt,如下所示:Crawl-delay: 30www.mysite.comwww.mysite.com/category_2
浏览 3
提问于2013-11-07
得票数 1
回答已采纳
2
回答
使用javascript导入外部页面
、
、
我想做一个
java
脚本
爬虫
,从php服务器获得一个分配,然后索引页面。但是我想
抓取
的网站是外部的,我不能用javascript访问它们,有没有人有其他赋值语言或javascript的解决方案。我想过在加载新站点时使用greasemonkey
抓取
页面。
浏览 1
提问于2012-03-06
得票数 0
2
回答
数据挖掘,用于收集网站的详细信息并放入CSV或SQL中
我如何开始编写一个程序,它将
抓取
他们的页面,并将页面的选择性信息放入CSV格式,然后我可以将其导入到我的网站中? 至少,我可以在哪里学到这一点?谢谢。
浏览 9
提问于2011-03-26
得票数 0
回答已采纳
2
回答
使用Web Crawler爬行Web数据
、
我想使用一个网络
爬虫
和
抓取
一个特定的网站。该网站是一个学习管理系统,许多学生在这里上传他们的作业,项目演示文稿等。我的问题是,我可以使用网络
爬虫
下载已经上传到学习管理系统中的文件吗?
爬虫
能做到这点吗?我知道webeater (用
Java
编写的Crawler )
浏览 1
提问于2011-03-30
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java爬虫在网络数据抓取方面有什么优势和不足
java分页只会用工具?写一个java原生分页!
爬虫抓取页面图片
爬虫抓取页面图片 update
爬虫常见的抓取策略
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券