腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
支持恢复下载的网站抓取
、
、
我想要一个完美的网站抓取软件,应该运行在Windows 8 32位。 我需要逐步抓取一个网站。我是说每天抓取5到10页。但它必须从我昨天离开的地方开始。因此,如果一个网站有50页,而我今天抓取了5页,它需要从第6页开始抓取。 目前,我正在使用HTTrack,但它是从每一个启动扫描。
浏览 0
提问于2014-10-01
得票数 -3
1
回答
如何使用newspaper3k重读网站上的新闻
、
、
、
我正在尝试创建一个数据集来对新闻文章进行情感分析。我正在使用Newspaper3k从网站上抓取文章。我抓取了一些网站,但没有正确存储文章,因此我不能使用它们。当我再次尝试抓取相同的网站时,它只抓取新的文章,而不是已经抓取的文章。有没有办法把已经刮过的文章再刮一遍?
浏览 0
提问于2018-06-15
得票数 2
3
回答
如何重新爬行nutch
、
我使用的是集成了mysql的Nutch 2.1。我抓取了2个站点,Nutch成功地抓取了它们,并将数据存储到Mysql中。我使用Solr 4.0.0进行搜索。 现在我的问题是,当我试图重新抓取一些网站,如trailer.apple.com或任何其他网站,它总是抓取最后抓取的网址。甚至我已经从seeds.txt文件中删除了最后一个抓取的Urls,并输入了新的urls。但是Nutch没有抓取新的Urls。 谁能告诉我,我到底做错了什么? 另外,请建议我任何Nutch插件,可以帮助抓取视频和电影网站。 任何帮助都将是非常有用的。
浏览 1
提问于2012-12-14
得票数 2
1
回答
Nutch与crwaling网站的问题,其中url仅在参数传递的术语上有所不同
我正在使用Nutch抓取网站,奇怪的是,对于我的一个网站用户,Nutch抓取只返回两个url,主页url ()和另一个。 我的webiste上的urls基本上是这种格式 也就是说,url仅在附加到url的参数方面不同(部分"?“对所有urls都是通用的) Nutch不能抓取这样的网站吗? 我应该做什么Nutch设置才能抓取这样的网站?
浏览 0
提问于2009-11-10
得票数 0
回答已采纳
1
回答
使用Scrapy抓取ajax页面
、
、
我已经用Scrapy一个月了。我能够抓取和抓取几个网站(事实上我已经抓取了900个网站),基于pipelines.Now给出的关键字,问题是当我们遇到javapages (ajax)时,抓取不能抓取。我正在尝试使用以下代码,并对抓取ajax页面进行适当的更改 你们有没有用scrapy抓取javapages的好主意? 第二个问题是,我面临的问题是scrapy无法抓取登录页面
浏览 2
提问于2013-06-19
得票数 0
回答已采纳
1
回答
如何使用SwiftSoup抓取重定向的特定网站?
、
、
、
、
我正在尝试让Swift抓取网站使用SwiftSoup。然而,像https://apple.news/AQZXxg8mUQfKrEaM9MRBpxw这样的网站,它会使用JavaScript自动重定向,这会导致SwiftSoup抓取打开的页面,而不是我想要的实际文章。我应该如何抓取这个链接,这样它才能抓取实际的文章,而不是重定向的封面网页? 我尝试使用状态码,但这个网站没有给出301或302的状态码,而是200的状态码。我试着抓取链接的JavaScript部分,但我不知道该怎么处理它。
浏览 52
提问于2019-06-19
得票数 4
1
回答
当下一页的后续链接在当前页面源代码中不可用时,抓取网站的所有页面
、
嗨,我已经成功地通过使用Python和正则表达式抓取了一些购物网站的所有页面。但现在我遇到了麻烦,要抓取某个特定网站的所有页面,该网站的下一页后续链接不存在于当前页面中,就像这里的 本网站通过Ajax调用动态加载同一页面中的下一页数据。所以在抓取的时候,我只能抓取第一页的数据。但我需要抓取该网站所有页面中的所有项目。 我没有办法获得这些类型的网站的所有网页的源代码,其中下一页的后续链接在当前页面不可用。请帮我解决这个问题。
浏览 0
提问于2013-05-28
得票数 0
1
回答
如果我想要抓取的图像被cloudflare保护并给出1020错误,有没有办法使用cheerio抓取网站?
、
、
、
、
我正在尝试创建一个漫画抓取网站作为个人项目,当我完成整个网站时,我知道图像不能被我的网站抓取或查看,当我试图转到图像的链接时,我得到了1020错误,说明访问被拒绝,有什么方法可以绕过这个错误而不从网站所有者那里获得授权令牌, 如果答案是否定的,那么谁能解释一下cloudflare是如何防止图像被抓取的,因为据我所知,前端的所有东西都可以被抓取。 编辑:这是一个我想抓取的image,但当我打开浏览器时,它给出了1020访问被拒绝的错误
浏览 92
提问于2021-02-06
得票数 2
回答已采纳
2
回答
Python处理多线程的最佳方法是什么
、
因为我的scaper运行很慢(一次一个页面),所以我试着使用线程来让它工作得更快。我有一个抓取(网站)函数,它接受一个要抓取的网站,所以我可以很容易地创建每个线程并在每个线程上调用start()。 现在,我想实现一个num_threads变量,它是我希望同时运行的线程数。处理这些多线程的最佳方式是什么? 例如:假设num_threads =5,我的目标是启动5个线程,然后抓取列表中的前5个网站并抓取它们,然后如果线程#3完成,它将立即抓取列表中的第6个网站抓取,而不是等到其他线程结束。 有什么关于如何处理它的建议吗?谢谢
浏览 1
提问于2015-02-04
得票数 0
2
回答
如何阻止在Drupal网站上的抓取?
、
我有一个Drupal网站,上面有大量的数据。但是,由于Drupal类和ID非常一致,人们可以很容易地抓取站点。 有没有任何方法来“乱码”代码,使它更难使用像之类的东西来刮这个网站? 还有其他技术可以让网站的抓取变得更难吗? 我在为失败的事业而战吗? 我不确定“抓取”是否是官方术语,但我指的是人们编写脚本的过程,即“抓取”一个网站并分析其中的部分,以便提取数据并将其存储在自己的数据库中。
浏览 2
提问于2015-03-23
得票数 0
回答已采纳
1
回答
通过PHP从其他站点抓取iframe视频
、
、
、
、
我想从其他网站抓取视频到我的网站(例如,从一个现场视频网站)。 如何从其他网站上抓取<iframe>视频?这个过程和抓取图片的过程一样吗? $html = file_get_contents('http://website.com/'); $dom = new domDocument; $dom->loadHTML($html); $dom->preserveWhiteSpace = false; $iframes = $dom->getElementsByTagName('frame'); foreach ($iframes as
浏览 7
提问于2014-10-31
得票数 1
1
回答
如何限制Apache Nutch 2.3.1抓取故事内容而不是侧边栏
、
、
、
、
我得抓取一些新闻网站。我已经在Hadoop 2.7.4和Hbase集群上安装了apache Nutch 2.3.1。我必须通过solr 6.6.1提供搜索。在抓取一些网站后,我观察到Nutch抓取页面中的所有内容。在新闻网站中,有包含最新或热门新闻等内容的侧栏。这些侧栏内容会随着时间的推移而变化。有没有办法让Nutch抓取主要故事内容,并避免这样的侧栏。
浏览 1
提问于2017-11-08
得票数 0
1
回答
我们是否可以编写一个可用于抓取多个站点的脚本
、
、
、
我已经为30个不同的网站写了近30个不同的抓取脚本。我的一个朋友告诉我,有可能有一个代码文件来抓取所有这30个网站,并将其带到仪表板上进行动态抓取(我不明白他的意思)。我知道每个网站都有自己的结构,不同的数据来自不同的页面和元素。另一方面,一些网站提供动态数据,而不是静态数据,我使用selenium进行抓取。 我真的不知道他在想什么,有没有可能遵循这样一条路径,我只需要一个很长的脚本文件,然后用它来抓取很多网站。 我将不胜感激,如果任何人有这方面的知识帮助我的想法,教程,网络内容和…
浏览 0
提问于2021-01-24
得票数 0
4
回答
抓取网站最好的方法或工具是什么?
在我开始编写自己的网站之前,我需要抓取(经过批准的)网站。什么是抓取网站的最好工具/方法,它既快速(多线程)又易于学习?
浏览 1
提问于2010-03-09
得票数 5
回答已采纳
2
回答
从整个web上抓取数据
我需要开发一个抓取工具,从整个网络上抓取产品的数据(价格,标题等)。现在,我确实有抓取的经验,但这是一个单一的网站。我不知道如何抓取整个网络。一种可能的解决方案是查询google,然后从google中出现的链接中抓取每个网站。这是一种好的方法吗? 我只需要一个通用的方法,你将如何解决这个问题,因为在我看来,每个网站可能有自己的方式来表示数据。如何合并所有这些变体?有什么指导/小贴士吗?
浏览 0
提问于2012-04-14
得票数 1
回答已采纳
1
回答
网页抓取C#
、
、
我试图从一个需要登录的网站上抓取,我已经做到了这一点,并成功地抓取了网站。 我遇到的问题是,我试图抓取的值直到网站加载几秒钟后才出现,我是从西门子OZW772.04控制器单元中抓取的,它必须获取摄氏度,并且需要几秒钟才能加载完它们。 所以,在我抓取网站后,文本是正确的,但是所有的值都是这样的 Datapoint Value HN1 heat-in \n --- \n \n \n HN2 room-temp \n --- \n \n \n 其中\n是我需要的值。我已经尝试过让线程等待,但似乎也不起作用。
浏览 2
提问于2012-09-12
得票数 1
2
回答
简单的网络爬虫速度问题
、
我用PHP创建了一个非常简单的网络爬虫,用来抓取一些足球网站的比赛结果。 但是当我抓取一个网站时,抓取它大约需要0.5 -1秒。因此,如果我有很多网址要抓取,这将需要大量的时间。 这是我抓取网站的代码起点: $doc = new DOMDocument(); $doc->loadHTMLFile("http://resultater.dai-sport.dk/tms/Turneringer-og-resultater/Pulje-Stilling.aspx?PuljeId=229"); $xpath = new DOMXpath($doc); 我已经自己创建了爬虫,所以也
浏览 2
提问于2015-04-20
得票数 3
2
回答
彼此差别很大但处理方式相似的功能的模式和设计
、
、
、
我正在编写一些Python代码来抓取网站,最终我将得到越来越多的自定义抓取器,每个大约50行长,从特定的网站中提取特定的信息。 我的程序的第一次迭代是一个巨大的文件,它以网站为参数,如果它识别该网站并为其提供自定义代码,则抓取该网站(使用一个巨大的case语句来检查它是否识别该网站)。 显然,这不是一个很好的设计,所以我想要做的是将自定义抓取函数放入它们自己的文件/类中,并有一个小脚本,我可以用它来按名称调用它们。例如: scrape.py --site google 我想要一个类似如下的文件结构: scrape.py sites/ google.py yahoo.py
浏览 0
提问于2010-11-22
得票数 3
回答已采纳
1
回答
抓取和爬行-发布令牌
、
我是个抓取和爬行的新手。为了一个研究项目,我正在尝试抓取和爬行社交网站: 此站点有一个接口: 它说这是你发布令牌的方式: curl -X POST -sku "vaughn:**********" https: //foundation.iplantc.org/auth-v1/ | python -mjson.tool 我正在尝试使用php在wikiscraper的帮助下获得身份验证,并进入网站,这样我就可以抓取它。我有一个困难的时间获得认证和进入网站。我把上面的命令放在命令行上,然后返回: curl: No match. python: module json.tool no
浏览 1
提问于2011-11-30
得票数 2
2
回答
如何使用Scrapy创建Twitter爬虫?
、
、
我试过使用Scrapy从Pinterest这样的网站上抓取数据,这些网站不需要登录会话进行数据抓取,但如何使用Scrapy抓取和爬行Twitter,因为要访问Twitter追随者和其他数据,我们需要首先登录。
浏览 0
提问于2014-12-18
得票数 2
1
回答
使用python进行Web抓取并在网站上生成价格
、
、
、
所以基本上我正在做一个涉及网络抓取的学校项目。我知道如何使用python和整合web抓取,但是如何将抓取的数据放到网站上呢?如果它有帮助,我正在制作一个网站,从其他网站拉动价格,并在我的展示它。(像Trivago)我在网上找不到太多,所以任何帮助都是很好的。
浏览 11
提问于2018-01-31
得票数 1
回答已采纳
1
回答
如何让我的angular js网站在搜索引擎上可抓取??
、
我想让我的angular js网站可被搜索引擎抓取。 我的网站没有被谷歌抓取??
浏览 1
提问于2016-02-14
得票数 0
1
回答
使用JavaScript抓取可能的网站->以及抓取的网站上显示的IP
、
、
在一个Angular-App中抓取一个网站是可能的?我说的是从Angular给一个网站打电话,而不是抓取一个Angular-App。如果是这样,那么我想知道哪个IP将显示在抓取的网站上。因为JavaScript是客户端,所以我建议,它是客户端的IP,而不是服务器的IP(就像nodejs)。但据我所知,它主要是浏览器实现的东西,我们可以在JS中使用,所以它甚至可以用JavaScript (或Angular)的方法抓取网站? 致以最好的问候
浏览 3
提问于2019-03-22
得票数 0
回答已采纳
2
回答
如何将抓取的数据发送到页面,而不等待页面加载?
、
、
、
我在我的Django网站上展示了一些抓取的数据..数据每小时会更改几次,因此需要更新。我使用Beautiful Soup抓取数据,然后将其发送到视图,并将其传递到上下文字典中,以将其呈现在网站上。问题是,抓取功能需要一些时间才能工作,因此,在该功能完成工作之前,网站不会加载。我怎样才能让它加载得更快?数据网站上没有API。
浏览 16
提问于2021-01-28
得票数 0
1
回答
Facebook共享调试器抓取主页URL,而不是Angular 6中给定的URL
、
、
Facebook共享调试器工具抓取了错误的页面。 我给了一个完整的网址与slug (指向我的网站上的个人网页),我希望它通过facebook分享按钮。它不是抓取我想要的页面,而是抓取我网站的主页。 我想让它刮掉https://example.com/slug 相反,它抓取了https://example.com 我已经使用以下代码更新了og:url的meta标记 this.meta.updateTag({ property: 'og:url', content: 'https://example.com/'+this.slug }
浏览 5
提问于2020-02-10
得票数 1
1
回答
使用selenium进行数据抓取?
我正在从一个网站上抓取数据,该网站正在以一定的时间间隔生成数据。根据我当前的代码,一旦浏览器抓取了数据并关闭了驱动程序连接,我就会关闭它。是否可以在不关闭浏览器窗口的情况下进行抓取,并在抓取完成后关闭驱动程序对象(我的意思是,网站每15分钟生成一次新数据,我希望我的驱动程序从初始窗口抓取数据,而不是每次都调用一个新窗口)?请告诉我一个可行的解决方案。
浏览 0
提问于2018-09-17
得票数 0
2
回答
facebook无法抓取网站
、
、
我有一个网站 当我试图分享一篇博客文章时,我决定不显示og:标签,而是显示一个自动选择。 此外,当我试图使用facebook的评论发布一条消息时,我得到了一个警告:“Facebook的服务器无法抓取。” 尝试使用facebook图形调试器获取新的抓取信息 返回:“解析输入URL时出错,没有缓存数据,或者没有抓取数据。” 注意:经过一段时间后,似乎facebook爬虫确实抓取了我的网站( facebook需要几天时间才能抓取我的网站),然后一切都很好。(但仍有新帖子出现上述问题)
浏览 0
提问于2014-11-17
得票数 0
1
回答
WebHarvest -使用身份验证抓取数据
我正在使用WebHarvest工具从几个网站抓取web数据。我已经看过了示例,但是找不到一种方法来在网站上进行身份验证,然后从网站上抓取数据。 谁能举出一个通过身份验证实现web数据抓取的配置示例?如何发送登录参数,然后接收主页内容?感谢你在这方面的帮助。
浏览 9
提问于2014-04-14
得票数 1
1
回答
为iOS安排后台任务的最佳方式是什么?
我现在有一个应用程序,允许用户从网站拉取信息。不幸的是,我没有任何访问该网站的API,它只是我屏幕抓取的东西。理想情况下,用户每天会从网站上抓取一次信息。目前我设置了一个时间,并使用performFetchWithCompletionHandler。当performFetchWithCompletionHandler被调用时,它检查设置的时间,如果该时间是当前时间,它将执行抓取。不幸的是,performFetchWithCompletionHandler不是这样工作的(我不能保证它会在用户指定的小时和分钟内触发)。有没有办法让我的应用程序在后台运行,并以指定的时间间隔抓取网站?
浏览 2
提问于2013-11-21
得票数 1
2
回答
有没有标准化的网站地图格式?
、
、
、
我想建立一个网站,抓取几个网站网站地图。我在中遇到过几次这种格式。我想知道这是不是标准,或者有没有。 如果没有网站地图,那么抓取网站地图的最佳方式是什么?一个正则表达式,还是某个库?
浏览 0
提问于2013-02-21
得票数 1
回答已采纳
4
回答
递归函数MultiThreading,一次执行一个任务
、
、
、
我正在写一个程序来抓取网站。抓取功能是一个递归的功能,可能会消耗更多的时间来完成,所以我使用多线程来执行多个网站的抓取。我真正需要的是,完成爬行一个网站后,它调用下一个(这应该是在Queqe),而不是多个网站爬行在同一时间。我使用的是C#和ASP.NET。
浏览 0
提问于2010-06-14
得票数 1
回答已采纳
4
回答
用于抓取和挖掘网站的最佳开源库或应用程序
、
、
、
我想知道什么是最好的电子开源库爬行和分析网站。一个例子是爬虫财产代理,我想要从许多网站抓取信息,并将它们聚合到我自己的网站中。为此,我需要抓取网站和提取物业广告。
浏览 0
提问于2009-04-17
得票数 3
回答已采纳
1
回答
带有刮刀的Web爬行器,使用木偶和刮除器
、
、
、
、
请注意,我是一个新手,当涉及到网络技术。我必须抓取和刮相当多的网站,这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。 我计划使用Selenium和Scrapy来完成爬行和抓取。单是Scrapy就不能对页面进行抓取,使用Selenium来抓取常规的javascript/html是非常耗时的。 我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript/html页面的区别。 等待回应。
浏览 3
提问于2019-12-04
得票数 0
回答已采纳
1
回答
使用PHPCrawler爬网时无法访问https主机
、
、
、
当尝试使用https协议抓取网站时,PHPCrawler返回一个错误,如下所示 Error connecting to https://www.something.com: Host unreachable (). 然而,它确实使用http://协议抓取站点。我的问题是为什么会发生这种情况,PHPCrawler有没有办法用https协议抓取网站?谢谢。
浏览 9
提问于2016-09-08
得票数 1
1
回答
如何使用selenium python自动分页?(无需手动选择next按钮)
、
、
、
、
我正在抓取图像的网站列表,使用selenium webdriver+scrapy,但每个网站的下一步按钮都有不同的类/div名称,如何自动查找不同网站中的下一页进行抓取?
浏览 11
提问于2020-06-20
得票数 0
1
回答
如何提高抓取抓取的速度?
、
我正在使用Scrapy抓取网站并将数据提取到json文件中,但我发现对于某些网站,爬虫需要很长时间才能抓取整个网站。 我的问题是:如何最大限度地减少爬行所需的时间?
浏览 3
提问于2013-10-01
得票数 4
1
回答
用Java开发自动web爬虫
你好,我想抓取多个电子商务网站,并获得所有可用的产品被抓取和显示在我的网站。我已经使用Java开发了爬虫,但在这方面,我们必须通过提供URL和HTML标记来手动抓取网站,并通过连接URL和解析URL来抓取站点,并在相应的HTML标记中获取产品。在这个例子中,我使用JSoup (“doc.getElementsByTagName”);在名为“爬行”的标签中获取产品 但我想让爬行完全自动化。如果我在我的网站上搜索一个产品,那么相应的产品应该自动从电子商务网站上爬行。如果我想爬行佳能相机,爬虫应该自动完成。 有可能使爬虫自动化吗?如果是,请帮助我做这件事。
浏览 1
提问于2014-01-20
得票数 1
3
回答
如何在抓取网站时扮演登录用户的角色?
、
、
有一个网站需要抓取,并进行身份验证。 有了登录名和密码,我怎么才能抓取这个网站的关闭部分?
浏览 2
提问于2012-06-29
得票数 3
回答已采纳
1
回答
抓取问题(data-reactid)
、
、
、
、
我正在尝试抓取一个网站,并根据我提取的数据编辑一个电子表格。 我要抓取的网站是。 我对抓取没有太多的经验,但我的方法是在html标签中找到独特的属性,并用它来抓取我想要的东西。 所以对于这个网站,我的方法是首先抓取页面的URL列表,当你点击其中一个体验时,例如:, 其次,在这个列表中循环,每次都要抓取相关的属性。然而,我被困在了第一步,因为我遇到的不是简单的"a href“标签,而是"data-reactid”标签,这会让事情变得混乱。 我使用iMacros进行抓取,但我现在对Java语言相当在行,所以如果需要的话,我会学习用Java语言进行抓取(这似乎很有可能,因为iMacr
浏览 2
提问于2015-04-30
得票数 2
1
回答
使用Solr Nutch抓取特定数据
、
、
、
我看到一些像这样的搜索网站,我想知道他们是如何在price,image和description等其他网站上抓取数据并将其显示在他们的网站上的。 我正在考虑使用Solr来索引数据,使用Nutch来抓取数据。我是网络爬行和索引的新手,到目前为止,我只能抓取网页的内容。 Solr Nutch能做这种爬行吗?又是如何做到的?
浏览 1
提问于2015-08-28
得票数 0
2
回答
我多长时间可以用PHP抓取一个网站?
、
、
我想构建一个Android应用程序,它可以用php抓取一个网站,并从我抓取的网站中的一个很小的span标签中获取信息。 我想知道这是不是合法的(我想这是因为Google一直在抓取网站)。 我还需要知道我可以多长时间做一次,或者是否有这样的规则。 谢谢!
浏览 4
提问于2012-01-03
得票数 0
2
回答
有没有办法截取网站上每一个页面的截图?
、
、
、
、
我们有几个传统网站正在进行升级。这将是有用的,能够截图每一页,然后md5求和的结果为两个领域,然后测试是否所有的渲染匹配100%。 我不确定如何做到这一点-我们已经看到了cheerio,它可以抓取网站,但无法截图,以及nightwatch,它可以抓取屏幕截图,但不能抓取网站。有没有人有这样做的经验?
浏览 38
提问于2018-06-07
得票数 3
回答已采纳
1
回答
php爬虫,用于包含ajax内容和https的网站
、
、
、
我试图抓取一个基于ajax和https的网站的内容,但没有运气。 这有没有可能。 我要抓取的网站是这样的: 谢谢
浏览 0
提问于2011-08-02
得票数 0
回答已采纳
1
回答
如何从网站提取数据并显示在google地图上?
、
我正在尝试创建一个类似于的网站,用户输入他们的属性标准,网站从,等网站抓取符合该标准的数据。然后,从这些网站抓取的数据显示在谷歌地图上,与该网站上显示的完全相同。 谁能给我指个方向,告诉我从哪里开始? 非常感谢!
浏览 3
提问于2013-09-04
得票数 0
2
回答
如何使用scrapy抓取多个页面?
、
我发现的Scrapy的所有例子都是关于如何抓取单个页面,具有相同url模式的页面或网站的所有页面。我需要抓取一系列的页面A,B,C,在A中你得到了B的链接,依此类推。例如,网站结构为: A ----> B ---------> C D E 我需要抓取所有的C页面,但是为了获得C的链接,我需要在A和B之前抓取。有什么提示吗?
浏览 3
提问于2013-12-16
得票数 8
2
回答
执行从随机网站下载的javascript代码
、
我做了一个工具,从其他网站(任何类型)抓取所有的html,css,javascript和图片。然后我在我自己的域名上执行这个(当然是在修改链接之后)。 javascript也会执行,因此页面呈现与抓取的网站上的页面呈现完全相同。但都在我的域名下。 有没有什么方法可以保护这个javascript的执行(使用不受控制的代码),这样被抓取的网站就不能获得我网站用户的cookie了?(或其他潜在的安全漏洞?) 谢谢。
浏览 1
提问于2013-05-24
得票数 1
2
回答
如何抓取一个网站只给定域网址与scrapy
、
、
、
我正在尝试使用scrapy抓取一个网站,但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面? 我只需要下载网站的所有页面,而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗?但我不知道scrapy是否会以这种方式避免复制urls。
浏览 0
提问于2013-01-06
得票数 5
回答已采纳
1
回答
抓取网站返回错误数据
、
我正在使用快速矿工从特定的数据抓取网站。问题是,如果我尝试频繁地抓取网站,它提供的数据是错误的。 如果我从其他IP地址看到相同的数据,它会显示与我在不同IP地址上抓取的数据不同的数据。 有什么解决方案可以克服这个问题吗?
浏览 0
提问于2012-10-19
得票数 0
1
回答
与完整的网站相比,我抓取的HTML代码似乎并不完整。HTML会动态变化吗?
、
我目前正在抓取一个网站,以便能够在本地对数据进行排序,然而,当我这样做时,代码似乎不完整,我觉得在我滚动网站以添加更多内容时,可能会发生变化。这会发生吗?如果是这样的话,我如何确保我能够抓取整个网站进行处理呢? 我目前只知道一些python和html用于web抓取,正在寻找其他可能影响这个问题的元素(javascript或ReactJS等)。 我希望在抓取网站时得到50个名字的列表,但它只返回13个。我已经下载了整个HTML文件来浏览它,文件中似乎没有其他名字,也就是为什么我认为文件可能是动态变化的
浏览 0
提问于2019-01-02
得票数 0
1
回答
crawler4j用于抓取urls列表,而无需抓取整个网站
我有一个网页网址列表需要抓取。是否有可能只抓取网页列表,而不是深入抓取它。如果我添加的url作为种子,它抓取完整的网站与完整的深度。
浏览 4
提问于2012-08-10
得票数 1
回答已采纳
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
抓取整个网站-免费抓取整个网站数据信息软件
什么是网站数据抓取
24 小时抓取百万次,Anthropic AI 公司被指过度抓取网站数据
怎样优化网站才有助于抓取
小心人脸识别抓取 这些网站已经禁止
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券